Model AI terbaru Nvidia, Nemotron-Cascade 2, membalikkan asumsi tentang model bahasa besar (LLM). Model ini mencapai performa tingkat atas dalam matematika, pengkodean, dan tugas penalaran lainnya sambil mengaktifkan hanya 3 miliar parameter dari total 30 miliar—sebagian kecil dari ukuran yang biasanya diperlukan untuk tingkat kemampuan ini. Yang lebih penting lagi, Nvidia telah membuat resep pasca-pelatihan menjadi sumber terbuka, memberikan cetak biru praktis kepada tim AI perusahaan untuk membangun sistem spesifik domain yang kuat tanpa memerlukan sumber daya yang besar.
Pergeseran dari Ukuran ke Strategi
Selama bertahun-tahun, industri AI beroperasi dengan keyakinan bahwa model yang lebih besar yang dilatih dengan lebih banyak data akan memberikan hasil yang lebih baik. Nemotron-Cascade 2 membuktikan hal ini belum tentu benar. Keunggulan kompetitif sebenarnya kini terletak pada bagaimana model disempurnakan setelah pelatihan awal, bukan hanya seberapa besar model tersebut. Hal ini penting karena pra-pelatihan LLM mutakhir dari awal dapat menghabiskan biaya puluhan juta dolar. Pendekatan Nvidia menunjukkan bahwa pasca-pelatihan yang unggul dapat secara dramatis mengungguli model yang lebih besar dengan investasi yang jauh lebih sedikit.
Nemotron-Cascade 2: Performa Tanpa Skala
Model ini meraih prestasi medali emas di tiga kompetisi yang terkenal sulit: Olimpiade Matematika Internasional (IMO) 2025, Olimpiade Internasional Informatika (IOI), dan Final Dunia ICPC. Ini adalah model bobot terbuka kedua yang mencapai level ini, melampaui DeepSeek-V3.2-Speciale, yang mengandalkan parameter 20 kali lebih banyak. Kuncinya? Saluran pasca-pelatihan yang dirancang dengan cermat yang disebut Cascade RL dan Multi-Domain On-Policy Distillation (MOPD).
Cascade RL: Pelatihan Berurutan untuk Penalaran Unggul
Inovasi inti adalah Cascade RL. Pembelajaran penguatan (reinforcement learning/RL) tradisional sering kali menyebabkan kelupaan yang parah —meningkatkan kinerja di satu bidang akan menurunkan kinerja di bidang lain. Cascade RL memecahkan masalah ini dengan melatih model pada domain yang berbeda secara berurutan, bukan secara bersamaan.
Proses pelatihan mengikuti urutan tertentu: mengikuti instruksi, penalaran multi-domain (STEM, penggunaan alat), penyulingan berdasarkan kebijakan, penyelarasan preferensi manusia, tugas konteks panjang, pengkodean, dan akhirnya rekayasa perangkat lunak. Pendekatan ini memungkinkan penyesuaian hyperparameter yang disesuaikan untuk setiap domain, memaksimalkan efisiensi dan meminimalkan interferensi. Tim Nvidia menemukan bahwa memulai dengan RL mengikuti instruksi dan diakhiri dengan kode RL memberikan hasil terbaik.
MOPD: Memanfaatkan Pos Pemeriksaan Internal untuk Retensi Pengetahuan
Bahkan dengan pelatihan berurutan, beberapa penyimpangan kinerja tidak dapat dihindari. Nvidia mengatasi hal ini dengan MOPD. Teknik ini menyeimbangkan kembali kemampuan dengan menggunakan kembali pos pemeriksaan perantara dari pelatihan yang sama seperti “guru”.
Ini adalah keuntungan besar: penggunaan pos pemeriksaan internal menghindari masalah ketidakcocokan distribusi yang muncul saat melakukan penyulingan dari model eksternal. MOPD beroperasi pada tingkat token, menjadikannya sangat efisien dalam pengambilan sampel. Menurut data Nvidia, metode ini memulihkan kinerja tingkat guru dalam 30 langkah, sedangkan metode RL standar memerlukan lebih banyak langkah untuk mendapatkan hasil yang lebih rendah.
Tolok Ukur dan Kompromi
Nemotron-Cascade 2 unggul dalam tolok ukur yang intensif penalaran. Pada LiveCodeBench v6, skornya 87,2, mengungguli model seperti Qwen3.5-35B-A3B (74,6) dan Kimi-K2.5-1T (85,0). Dalam matematika, skor ini mencapai 94,6 pada HMMT Februari 2025, menyamai model yang lebih besar. Namun, model ini berkinerja buruk dalam tugas-tugas intensif pengetahuan seperti MMLU-Pro dan benchmark agen, sehingga menyoroti perlunya pra-pelatihan lebih lanjut dan penyempurnaan RL. Nvidia transparan mengenai kelemahan ini, yang penting untuk penerapan praktis.
Implikasinya terhadap AI Perusahaan
Resep Nemotron-Cascade 2 memberikan wawasan yang dapat ditindaklanjuti untuk tim perusahaan:
- Penambahan Kemampuan Iteratif: Pelatihan domain berurutan memungkinkan penambahan keterampilan baru tanpa membangun kembali keseluruhan pipeline.
- Distilasi Internal: MOPD menghilangkan kebutuhan akan model guru eksternal yang mahal, sehingga memungkinkan distilasi dari snapshot yang ada.
- Pelatihan Efisien: Penyiapannya menggunakan GRPO dengan pelatihan kebijakan yang ketat dan penalti KL minimal, sehingga menyederhanakan penerapan.
Bangkitnya Kepadatan Intelijen
Nemotron-Cascade 2 mencontohkan tren yang berkembang menuju “kepadatan intelijen”—mencapai kemampuan maksimum dengan parameter aktif yang lebih sedikit. Hal ini memiliki implikasi signifikan terhadap biaya penerapan dan latensi. Model dengan 3 miliar parameter aktif jauh lebih mudah untuk dilayani dibandingkan model padat dengan 70 miliar parameter.
Pertanyaan terbukanya adalah seberapa baik pendekatan ini dapat digeneralisasikan ke tugas-tugas yang lebih ambigu di mana verifikasinya sulit dilakukan. Namun untuk masalah terstruktur—pemodelan keuangan, komputasi ilmiah, rekayasa perangkat lunak—metodologi Nvidia memberikan kerangka kerja yang terperinci dan dapat direproduksi untuk membangun sistem AI berkinerja tinggi.






























