Home » Hunyuan3D 2.0: Membuat Model 3D dengan Mudah
Hunyuan3D 2.0 Membuat Model 3D dengan Mudah

Hunyuan3D 2.0: Membuat Model 3D dengan Mudah

Hunyuan3D 2.0: Membuat Model 3D dengan Mudah – Perkembangan generative AI tidak hanya dapat membuat gambar dari perintah teks, kini dapat membuat aset 3D atau tiga dimensi dengan mudah, tanpa perlu skill modeling dan rigging.

Perkembangan ini dapat secara signifikan mempercepat proses produksi baik film, game, rancangan arsitektur, dan hal yang berkaitan dengan aset 3D lainnya. Namun, membuat model 3D secara manual bisa sulit, memakan waktu, dan mahal. Untuk mengatasi masalah ini, Hunyuan3D 2.0 hadir sebagai sistem canggih yang dapat membuat model 3D berkualitas tinggi secara otomatis.

Hunyuan3D 2.0

Hunyuan3D Team menciptakan Hunyuan3D 2.0, merupakan sistem canggih untuk membuat model tiga dimensi berkualitas tinggi dengan tekstur yang detail. Sistem ini terdiri dari dua komponen utama Hunyuan3D-DiT (model yang menghasilkan bentuk 3D) dan Hunyuan3D-Paint (model yang membuat tekstur).

Model generative 3D dirancang untuk membuat geometri yang sesuai dengan gambar referensi, sehingga hasilnya lebih akurat dan detail. Sedangkan model pembuat tekstur mampu menghasilkan tekstur yang tajam dan berwarna cerah, baik untuk model yang dibuat otomatis maupun secara manual.

Arsitektur

Hunyuan3D 2.0 terdiri dari dua komponen dalam membuat aset 3D:

1. Hunyuan3D-DiT (Diffusion Transformer)

Hunyuan3D-DiT (Diffusion Transformer)

Model ini menghasilkan bentuk dasar 3D (shape) dari input gambar dengan menggunakan latent diffusion model dan transformer. Desain ini terinspirasi dari keberhasilan latent diffusion model dalam pembuatan gambar dan video.

Secara khusus, model ini terdiri dari dua bagian utama:

a. Autoencoder – Hunyuan3D-ShapeVAE

Mengompresi bentuk objek 3D (yang direpresentasikan sebagai polygon mesh) menjadi serangkaian token dalam ruang laten (latent space).

ShapeVAE adalah model yang mempelajari dan merepresentasikan bentuk objek 3D dengan memahami tiga aspek utama: keberadaan bagian-bagian objek, lokasi titik-titik pada permukaannya, dan arah permukaan (surface normals).

b. Flow-based diffusion model – Hunyuan3D-DiT

Model ini dilatih dalam ShapeVAE untuk memprediksi urutan token objek berdasarkan gambar yang diberikan oleh pengguna. Token yang diprediksi kemudian diterjemahkan kembali menjadi polygon mesh menggunakan decoder VAE.

2. Hunyuan3D-Paint

Hunyuan3D-Paint

Model ini melakukan sintesis tekstur berkualitas tinggi dengan mempertimbangkan kondisi geometri dan referensi visual. Model ini bekerja dengan memberikan sebuah mesh 3D tanpa tekstur dan sebuah gambar sebagai petunjuk (image prompt), dengan tujuan untuk menghasilkan peta tekstur (texture map) yang memiliki resolusi tinggi dan halus.

Model ini menggunakan tiga tahapan:

1. Tahap Pra-pemrosesan

Menyiapkan data dan melakukan penyesuaian awal sebelum proses pembuatan tekstur.

2. Tahap Sintesis Gambar

Menghasilkan gambar dari berbagai sudut pandang untuk memastikan tekstur tetap konsisten.

3. Tahap Penerapan Tekstur (Texture Baking)

Memproyeksikan tekstur ke mesh 3D dengan mempertahankan detail dan kesesuaian dari berbagai perspektif.

Pelatihan Model

Untuk melatih model yang bisa menghasilkan gambar dari berbagai sudut pandang, Stable Diffusion 2 v-model digunakan dengan checkpoint ZSNR sebagai dasar weight. Model ini dilatih menggunakan dataset 3D besar yang Hunyuan3D Team kumpulkan sendiri.

Cara kerja pelatihan:

  • Gambar dihasilkan dari berbagai sudut dengan pencahayaan putih merata, agar model dapat mengenali bentuk dan tekstur tanpa terpengaruh efek pencahayaan.
  • Gambar referensi dibuat dengan sudut azimuth acak dan sudut elevasi tetap dalam kisaran -20 hingga 20 derajat. Dengan cara ini, model belajar menangani perbedaan sudut pandang sehingga tetap konsisten saat menghasilkan tekstur.
  • Model dilatih menggunakan:
    • Resolusi gambar 512 × 512,
    • 80.000 langkah pelatihan (training steps),
    • Batch size 48 (jumlah gambar yang diproses sekaligus),
    • Learning rate 5 × 10⁻⁵ untuk mengontrol kecepatan pembelajaran,
    • 1000 langkah pemanasan (warm-up steps) untuk membantu model beradaptasi di awal,
    • “Trailing” scheduler dari ZSNR, yang mengatur perubahan kecepatan belajar secara bertahap.

Implementasi

Hunyuan3D-Studio, sebuah platform yang memudahkan proses pembuatan dan pengeditan model 3D. Dengan platform ini, baik pengguna profesional maupun pemula dapat dengan mudah menyesuaikan atau bahkan menganimasikan model mereka.

Hunyuan3D 2.0 kini tersedia untuk publik agar lebih banyak orang dapat menggunakannya dan membantu mengembangkan teknologi model 3D berskala besar.

Hunyuan3D-Studio mempunyai beberapa fitur:

1. Sketch-to-3D

Memungkinkan pengguna mengubah sketsa sederhana menjadi gambar kaya detail, sambil tetap mempertahankan garis bentuk aslinya. Setelah itu, sistem akan membuat model 3D bertekstur dengan resolusi tinggi dan akurasi tinggi. Teknologi ini secara signifikan mempermudah proses pembuatan konten 3D.

2. Low-polygon Stylization

Modul stylization low-polygon yang dapat mengubah mesh 3D berdefinisi tinggi yang dihasilkan oleh Hunyuan3D 2.0 menjadi mesh low-polygon dengan lebih efisien.

3. 3D Character Animation

Hunyuan3D-Studio

Hunyuan3D-Studio memiliki fungsi animasi karakter 3D yang memungkinkan karakter yang dihasilkan bergerak dengan realistis.

Cara kerja algoritma animasi:

  1. Menganalisis Karakter 3D – Algoritma mengambil data dari titik dan tepi pada mesh untuk mengekstrak fitur utama.
  2. Mendeteksi Kerangka (Skeleton) – Menggunakan Graph Neural Network (GNN) untuk menemukan titik utama kerangka dan menentukan bobot skinning pada permukaan mesh.
  3. Menerapkan Gerakan – Berdasarkan hasil deteksi skeleton dan template gerakan, sistem menggunakan motion retargeting untuk menggerakkan karakter.

Graph Neural Networks (GNNs) adalah jenis kecerdasan buatan yang dirancang untuk memahami hubungan antar titik (node) dalam suatu jaringan atau grafik.

Hasil

Pengujian menunjukkan bahwa Hunyuan3D 2.0 mampu menghasilkan model 3D dengan kualitas lebih baik dibandingkan metode lain. Beberapa keunggulan utama adalah:

  • Model lebih akurat – Detail kecil seperti bentuk wajah atau pola objek terlihat jelas.
  • Tekstur lebih realistis – Warna dan pencahayaan dibuat lebih alami.
  • Pembuatan lebih cepat – Proses otomatis ini menghemat waktu dibandingkan pembuatan manual.

Dengan berbagai inovasi ini, Hunyuan3D 2.0 diharapkan dapat menjadi standar dasar bagi pengembangan model 3D berskala besar dalam komunitas open-source serta mendukung penelitian lebih lanjut di bidang ini.

Refrensi:

  • Zhao, Z., Lai, Z., Lin, Q., Zhao, Y., Liu, H., Yang, S., … & Guo, C. (2025). Hunyuan3D 2.0: Scaling Diffusion Models for High Resolution Textured 3D Assets Generation. arXiv preprint arXiv:2501.12202.
  • Xu, K., Hu, W., Leskovec, J., & Jegelka, S. (2018). How powerful are graph neural networks?. arXiv preprint arXiv:1810.00826.
  • Nash, C., & Williams, C. K. (2017, August). The shape variational autoencoder: A deep generative model of part‐segmented 3d objects. In Computer Graphics Forum (Vol. 36, No. 5, pp. 1-12).

More Reading

Post navigation