Databricks KARL: Agen Pembelajaran Penguatan untuk Pencarian Perusahaan Universal

6

Databricks telah meluncurkan KARL (Agen Pengetahuan melalui Pembelajaran Penguatan), agen AI baru yang dirancang untuk mengatasi keterbatasan saluran pipa Retrieval-Augmented Generation (RAG) tradisional. Sebagian besar sistem RAG perusahaan unggul dalam satu jenis pencarian, dan gagal secara diam-diam ketika dihadapkan dengan jenis pencarian lainnya. Model yang dioptimalkan untuk sintesis laporan akan kesulitan dalam pengambilan entitas secara tepat, sementara model yang berfokus pada pencarian akan gagal dalam penalaran multi-langkah. KARL bertujuan untuk mengatasi masalah ini dengan dilatih untuk menangani enam perilaku pencarian perusahaan yang berbeda secara bersamaan.

Masalah pada Sistem RAG Saat Ini

Sistem RAG yang ada bersifat rapuh. Sistem ini biasanya disesuaikan untuk tugas penelusuran tertentu, sehingga menjadikannya rentan ketika dihadapkan pada kompleksitas dunia nyata. Agen yang dilatih untuk menjawab pertanyaan sederhana mungkin gagal ketika ditugaskan untuk merekonstruksi catatan internal yang terfragmentasi atau mensintesis intelijen dari catatan rapat yang tidak terstruktur. Ketidakfleksibelan ini memaksa tim untuk membangun saluran terpisah untuk setiap kasus penggunaan, sehingga menimbulkan overhead pemeliharaan dan akses pengetahuan yang tertutup.

Cara Kerja KARL: Pembelajaran Penguatan Multi-Tugas

Databricks melatih KARL menggunakan algoritma pembelajaran penguatan baru (RL), mencapai kinerja yang sebanding dengan Claude Opus 4.6 dengan biaya per kueri 33% lebih rendah dan latensi 47% lebih rendah. Yang terpenting, model tersebut dilatih sepenuhnya berdasarkan data sintetis yang dihasilkannya sendiri, sehingga menghilangkan kebutuhan pelabelan manusia yang mahal. Hal ini dimungkinkan karena OAPL, kebijakan Pengoptimalan Kebijakan berbasis Keunggulan Optimal dengan Inferensi Tertinggal, yang dikembangkan bersama oleh Databricks dengan peneliti dari Cornell dan Harvard.

Inovasi utama OAPL adalah stabilitasnya dalam lingkungan pelatihan terdistribusi. Tidak seperti pendekatan LLM RL tradisional, pendekatan ini menangani kelambatan kebijakan secara efektif, memungkinkan pelatihan yang efisien sampel dan mengurangi biaya GPU. Hal ini membuat model ini layak untuk diterapkan di perusahaan secara realistis.

Enam Perilaku Pencarian Perusahaan yang Ditangani oleh KARL

Untuk mengevaluasi KARL, Databricks membuat KARLBench, sebuah tolok ukur yang menilai kinerja enam perilaku pencarian perusahaan yang penting:

  • Penelusuran entitas berdasarkan batasan: Mengambil entitas tertentu dalam kondisi yang ketat.
  • Sintesis laporan lintas dokumen: Menggabungkan informasi dari berbagai sumber menjadi laporan yang koheren.
  • Penjelajahan dokumen panjang dengan penalaran tabel: Mengekstraksi wawasan dari dokumen besar dengan data numerik.
  • Pengambilan entitas menyeluruh: Mengidentifikasi semua entitas yang relevan dalam kumpulan data tertentu.
  • Penalaran prosedural atas dokumentasi teknis: Mengikuti petunjuk langkah demi langkah dari manual yang rumit.
  • Agregasi fakta melalui catatan internal perusahaan: Menggabungkan data yang terfragmentasi untuk menjawab pertanyaan kompleks.

KARL menunjukkan generalisasi yang kuat, berkinerja baik pada tugas-tugas yang tidak pernah dilatih secara eksplisit, tidak seperti sistem RAG standar.

Lapisan Kompresi: Manajemen Konteks

Tantangan utama dalam penelusuran perusahaan adalah mengelola jendela konteks Model Bahasa Besar (LLM). Sistem RAG tradisional mengandalkan database vektor yang sangat besar atau memaksa LLM memproses terlalu banyak informasi sekaligus. KARL mengatasi hal ini dengan belajar mengompresi konteksnya sendiri secara end-to-end melalui RL. Ketika konteks melebihi batas LLM, agen akan mengompresnya, mempertahankan akurasi namun tetap berada dalam batas. Tanpa kompresi ini, performa model akan turun secara signifikan.

Keterbatasan dan Peta Jalan Masa Depan

KARL kesulitan menjawab pertanyaan yang mengandung ambiguitas, yang memiliki banyak jawaban valid. Model ini terkadang menyerah pada kueri kompleks sejak dini, yang menurut Databricks sering kali merupakan perilaku yang tepat untuk efisiensi biaya. Saat ini KARL hanya mendukung pencarian vektor; integrasi dengan database SQL, sistem file, dan perhitungan berbasis Python direncanakan untuk pengembangan di masa depan.

Implikasi bagi Tim Data Perusahaan

KARL menyoroti tiga pertimbangan penting bagi tim yang membangun infrastruktur pengambilan mereka:

  1. Arsitektur pipeline penting: Pipeline RAG yang dioptimalkan secara sempit akan gagal pada beragam jenis kueri.
  2. Pembelajaran penguatan adalah kuncinya: Penyulingan dari model pakar tidak dapat menandingi kemampuan generalisasi agen yang dilatih RL.
  3. Efisiensi lebih penting daripada biaya: Agen pencarian yang dibuat khusus menyelesaikan tugas lebih cepat, mengurangi kueri yang terbuang, dan mengompresi konteks secara efektif.

Membangun model yang mengetahui cara melakukan penelusuran lebih berharga daripada sekadar merutekan semuanya melalui API tujuan umum.