Bagi periset robotika, salah satu hambatan terbesar adalah spesialisasi. Sistem AI yang dirancang untuk gripper dua jari tidak bisa langsung digunakan untuk gripper lima jari. Setiap kali bentuk gripper berubah, proses pelatihan harus diulang — mulai dari pengumpulan data, fine-tuning, hingga validasi. NVIDIA menyebut pendekatan lama ini membuat perusahaan robotika cenderung stuck pada satu jenis gripper dan enggan bereksperimen.
GraspGen-X: Fondasi Universal untuk Genggaman Robot
Makalah pertama, GraspGen-X, memperkenalkan model fondasi (foundation model) pertama untuk tugas menggenggam yang tidak bergantung pada jenis gripper. Model ini dilatih dengan 2 miliar simulasi genggaman menggunakan ribuan bentuk objek dan konfigurasi gripper sintetis — data yang mustahil dikumpulkan di dunia nyata dalam skala tersebut.
Prinsip kerjanya mirip dengan large language model (LLM): begitu memahami geometri dan kontak, GraspGen-X bisa langsung menghasilkan proposal pose genggaman yang andal untuk gripper baru yang belum pernah dilihat sebelumnya. NVIDIA mengklaim model ini bisa digunakan out of the box untuk beberapa gripper yang umum dipakai di industri, sehingga menghilangkan siklus pelatihan perangkat yang memakan waktu dan biaya.
GraspGen-X juga bisa dikombinasikan dengan cuRoboV2, pustaka perencanaan gerak berbasis CUDA yang baru dirilis, untuk mengeksekusi genggaman di lingkungan yang tidak dikenal.
LCDrive: Biarkan Mobil Berpikir dalam ‘Bahasa’ yang Lebih Efisien
Makalah kedua, LCDrive, menyasar masalah kecepatan penalaran pada mobil otonom. Selama ini, pendekatan chain-of-thought (CoT) berbasis teks memang meningkatkan kualitas keputusan AI, tetapi setiap kata yang dihasilkan adalah token yang memakan waktu — dan di prosesor mobil, waktu adalah sumber daya yang kritis.
LCDrive mengganti penalaran berbasis teks dengan representasi laten yang ringkas. Alih-alih menghasilkan langkah-langkah yang bisa dibaca manusia, sistem ini berpikir dalam ruang laten yang menangkap informasi spasial. Arsitekturnya bergantian antara dua mode: mengusulkan kandidat aksi, lalu memprediksi bagaimana dunia akan terlihat jika aksi itu diambil. Hasilnya, kualitas lintasan yang dihasilkan setara dengan penalaran berbasis teks, tetapi hanya menggunakan separuh jumlah token. Model ini dibangun di atas platform NVIDIA Alpamayo dan dilatih menggunakan data kendaraan yang sudah ada.
NitroGen: Melatih Agen AI di Ribuan Dunia Virtual
Makalah ketiga, NitroGen, memanfaatkan arsitektur model fondasi robot humanoid NVIDIA Isaac GR00T untuk melatih agen AI di lingkungan virtual. Video game—dengan dunia yang terstruktur, tujuan yang jelas, dan kondisi sukses yang terdefinisi—dijadikan tempat latihan. NitroGen dilatih di lebih dari 1.000 game dan 40.000 jam interaksi.
Hasilnya, agen yang dihasilkan mampu menunjukkan perilaku gameplay seperti pertarungan, navigasi, dan eksplorasi di berbagai genre—dari action RPG hingga open-world. NVIDIA menyebut teknik yang sama pada akhirnya bisa digunakan untuk menciptakan non-playable characters (NPC) yang lebih adaptif, AI companion, dan pengujian lingkungan game yang kompleks. Dalam kondisi data minim, memulai dengan NitroGen meningkatkan performa agen hingga 52% dibanding metode state-of-the-art sebelumnya. Model ini dirilis sebagai open source di GitHub dan Hugging Face.
NVIDIA juga mengumumkan seperangkat keterampilan AI agen fisik baru di CVPR yang dirancang untuk mempercepat pengembangan kendaraan otonom, robot, dan sistem visi AI. Seluruh riset ini menegaskan arah perusahaan: alih-alih membuat model yang pintar dalam satu tugas, mereka membangun sistem yang bisa generalisasi—dan itu hanya mungkin jika dilatih dalam skala besar.