Kemajuan AI Kini Terbatas pada Sistem: Kesimpulan Penting dari NeurIPS 2025

16

Perkembangan paling signifikan dari NeurIPS 2025 bukanlah mengenai model yang lebih besar; mereka tentang memahami bagaimana membuat sistem saat ini menjadi lebih baik. Para peneliti mengungkapkan bahwa kemajuan AI semakin dibatasi oleh arsitektur, metode pelatihan, dan strategi evaluasi—bukan hanya kapasitas model semata. Makalah ini menyajikan tantangan terhadap asumsi lama tentang penskalaan, penalaran, dan bahkan kemampuan dasar pembelajaran penguatan. Berikut adalah rincian lima temuan utama dan implikasinya terhadap pengembangan AI di dunia nyata.

LLM Berkonvergensi: Mengukur Homogenitas dalam Generasi

Selama bertahun-tahun, evaluasi LLM berfokus pada akurasi. Namun, dalam tugas yang menuntut kreativitas atau perspektif yang beragam, masalah sebenarnya bukanlah kebenaran tetapi homogenitas. Penelitian terbaru menunjukkan bahwa model-model di berbagai arsitektur dan penyedia layanan semakin menyatu dalam menghasilkan keluaran yang serupa dan “aman”.

Tolok ukur “Infinity-Chat” memperkenalkan metrik untuk mengukur keruntuhan intra-model (pengulangan mandiri) dan homogenitas antarmodel (kesamaan antar model). Hasilnya mengungkapkan tren yang memprihatinkan: bahkan ketika ada beberapa jawaban valid, LLM cenderung menghasilkan tanggapan yang sangat mirip.

Mengapa hal ini penting: Bagi bisnis yang mengandalkan hasil kreatif, hal ini berarti penyesuaian preferensi dan batasan keamanan dapat secara tidak sengaja mengurangi keberagaman, sehingga menghasilkan asisten AI yang dapat diprediksi atau bias. Metrik keanekaragaman perlu diprioritaskan bersama dengan pengukuran akurasi tradisional.

Perhatian Tidak Terselesaikan: Dampak Perhatian yang Terpagar

Perhatian pada trafo, yang sering kali dianggap sebagai masalah teknis yang sudah terselesaikan, telah diperiksa ulang. Perubahan arsitektur sederhana—menerapkan gerbang sigmoid yang bergantung pada kueri setelah perhatian produk titik berskala—secara konsisten meningkatkan stabilitas, mengurangi “penyerapan perhatian”, dan meningkatkan kinerja konteks panjang dalam menjalankan pelatihan skala besar.

Gerbang ini memperkenalkan non-linearitas dan ketersebaran implisit, yang mungkin mengatasi masalah keandalan yang sebelumnya tidak dapat dijelaskan. Hal ini menunjukkan bahwa beberapa masalah LLM terbesar lebih bersifat arsitektural daripada algoritmik, dan dapat diselesaikan dengan sedikit modifikasi.

Penskalaan RL: Kedalaman, Bukan Hanya Data, Adalah Kuncinya

Kebijaksanaan konvensional menunjukkan bahwa pembelajaran penguatan (RL) kesulitan untuk berkembang tanpa imbalan atau demonstrasi yang besar. Namun, penelitian baru menunjukkan bahwa penskalaan kedalaman jaringan —dari biasanya 2-5 lapisan menjadi hampir 1.000—secara dramatis meningkatkan RL yang diawasi sendiri dan dikondisikan oleh tujuan.

Dipasangkan dengan tujuan yang kontras dan pengoptimalan yang stabil, kedalaman ini menghasilkan keuntungan mulai dari 2X hingga 50X. Untuk sistem agen dan alur kerja otonom, hal ini menyoroti peran penting kedalaman representasi dalam generalisasi dan eksplorasi.

Model Difusi: Mengapa Mereka Menggeneralisasi Daripada Menghafal

Model difusi memiliki parameter yang berlebihan, namun sering kali dapat digeneralisasi dengan baik. Para peneliti mengidentifikasi dua rentang waktu pelatihan yang berbeda: peningkatan kualitas yang cepat dan munculnya hafalan yang jauh lebih lambat. Skala waktu penghafalan bertambah secara linier seiring dengan ukuran kumpulan data, menciptakan jendela di mana model ditingkatkan tanpa overfitting.

Hal ini mengubah strategi penghentian awal dan penskalaan kumpulan data; menghafal dapat diprediksi dan tertunda, bukan tidak bisa dihindari. Untuk pelatihan difusi, meningkatkan ukuran kumpulan data secara aktif menunda overfitting, tidak hanya meningkatkan kualitas.

RL Meningkatkan Pengambilan Sampel, Bukan Kapasitas Penalaran

Mungkin temuan yang paling menyedihkan: pembelajaran penguatan dengan imbalan yang dapat diverifikasi (RLVR) tidak selalu menciptakan kemampuan penalaran baru di LLM. Sebaliknya, hal ini terutama meningkatkan efisiensi pengambilan sampel, membentuk kembali kemampuan yang sudah ada dibandingkan menghasilkan kemampuan baru yang mendasar.

Pada ukuran sampel yang besar, model dasar seringkali sudah berisi lintasan penalaran yang benar. Artinya, RL lebih dipahami sebagai mekanisme pembentuk distribusi, bukan sebagai pembangkit kapasitas penalaran inti. Untuk memperluas penalaran, RL perlu dipasangkan dengan mekanisme seperti penyulingan guru atau perubahan arsitektur.

Gambaran Lebih Besar: AI Kini Terbatas pada Sistem

Pesan kolektif dari NeurIPS 2025 jelas: kemajuan AI kini dibatasi oleh desain sistem. Runtuhnya keragaman memerlukan metrik evaluasi baru, kegagalan perhatian memerlukan perbaikan arsitektur, penskalaan RL bergantung pada kedalaman, dan menghafal terkait dengan dinamika pelatihan. Keunggulan kompetitif sedang bergeser dari “siapa yang memiliki model terbesar” menjadi “siapa yang memahami sistem.”

Pergeseran ini memerlukan fokus pada arsitektur, strategi pelatihan, dan evaluasi—bukan hanya komputasi mentah. Masa depan AI terletak pada optimalisasi cara kita membangun sistem, bukan sekadar menjadikannya lebih besar.