banner large

Visi Yann LeCun untuk menciptakan mesin otonom

Comment
X
Share

Kami sangat antusias untuk menghadirkan Transform 2022 kembali secara langsung pada 19 Juli dan 20 – 28 Juli secara virtual. Bergabunglah dengan AI dan pemimpin data untuk pembicaraan yang berwawasan luas dan peluang jaringan yang menarik. Daftar hari ini!


Di tengah perdebatan sengit tentang kecerdasan AI, mesin sadar, dan kecerdasan umum buatan, Yann LeCun, Kepala Ilmuwan AI di Meta, menerbitkan cetak biru untuk menciptakan “kecerdasan mesin otonom.”

LeCun telah menyusun ide-idenya dalam sebuah makalah yang mengambil inspirasi dari kemajuan dalam pembelajaran mesin, robotika, ilmu saraf dan ilmu kognitif. Dia menjabarkan peta jalan untuk menciptakan AI yang dapat memodelkan dan memahami dunia, alasan, dan rencana untuk melakukan tugas pada rentang waktu yang berbeda.

Meskipun makalah ini bukan dokumen ilmiah, makalah ini memberikan kerangka kerja yang sangat menarik untuk memikirkan bagian-bagian berbeda yang diperlukan untuk mereplikasi kecerdasan hewan dan manusia. Ini juga menunjukkan bagaimana pola pikir LeCun, pelopor pembelajaran mendalam pemenang penghargaan, telah berubah dan mengapa menurutnya pendekatan saat ini terhadap AI tidak akan membawa kita ke AI tingkat manusia.

Struktur modular

Salah satu elemen visi LeCun adalah struktur modular dari berbagai komponen yang terinspirasi oleh berbagai bagian otak. Ini adalah terobosan dari pendekatan populer dalam pembelajaran mendalam, di mana satu model dilatih dari ujung ke ujung.

Di pusat arsitektur adalah model dunia yang memprediksi keadaan dunia. Sementara pemodelan dunia telah dibahas dan dicoba dalam arsitektur AI yang berbeda, mereka adalah tugas khusus dan tidak dapat disesuaikan dengan tugas yang berbeda. LeCun menyarankan bahwa seperti manusia dan hewan, sistem otonom harus memiliki model dunia tunggal yang fleksibel.

“Satu hipotesis dalam makalah ini adalah bahwa hewan dan manusia hanya memiliki satu mesin model dunia di suatu tempat di korteks prefrontal mereka,” tulis LeCun. “Mesin model dunia itu dapat dikonfigurasi secara dinamis untuk tugas yang ada. Dengan mesin model dunia tunggal yang dapat dikonfigurasi, bukan model terpisah untuk setiap situasi, pengetahuan tentang cara kerja dunia dapat dibagikan di seluruh tugas. Ini memungkinkan penalaran dengan analogi, dengan menerapkan model yang dikonfigurasi untuk satu situasi ke situasi lain.”

Arsitektur yang diusulkan LeCun untuk mesin otonom

Model dunia dilengkapi dengan beberapa modul lain yang membantu agen memahami dunia dan mengambil tindakan yang relevan dengan tujuannya. Modul “persepsi” melakukan peran sistem sensorik hewan, mengumpulkan informasi dari dunia dan memperkirakan keadaannya saat ini dengan bantuan model dunia. Dalam hal ini, model dunia melakukan dua tugas penting: Pertama, ia mengisi bagian informasi yang hilang dalam modul persepsi (misalnya, objek yang terhalang), dan kedua, memprediksi keadaan dunia yang masuk akal di masa depan (misalnya, di mana akan bola terbang berada di langkah waktu berikutnya).

Modul “biaya” mengevaluasi “ketidaknyamanan” agen, diukur dalam energi. Agen harus mengambil tindakan yang mengurangi ketidaknyamanannya. Beberapa dari biaya tersebut sudah terprogram, atau “biaya intrinsik.” Misalnya, pada manusia dan hewan, biaya ini akan menjadi kelaparan, kehausan, rasa sakit, dan ketakutan. Submodul lainnya adalah “kritikus yang dapat dilatih”, yang tujuannya adalah untuk mengurangi biaya untuk mencapai tujuan tertentu, seperti menavigasi ke suatu lokasi, membuat alat, dll.

Modul “memori jangka pendek” menyimpan informasi yang relevan tentang keadaan dunia sepanjang waktu dan nilai yang sesuai dari biaya intrinsik. Memori jangka pendek memainkan peran penting dalam membantu model dunia berfungsi dengan baik dan membuat prediksi yang akurat.

Modul “aktor” mengubah prediksi menjadi tindakan tertentu. Itu mendapat masukan dari semua modul lain dan mengontrol perilaku luar agen.

Akhirnya, modul “konfigurator” menangani kontrol eksekutif, menyesuaikan semua modul lain, termasuk model dunia, untuk tugas spesifik yang ingin dilakukan. Ini adalah modul kunci yang memastikan satu arsitektur dapat menangani banyak tugas yang berbeda. Ini menyesuaikan model persepsi, model dunia, fungsi biaya dan tindakan agen berdasarkan tujuan yang ingin dicapai. Misalnya, jika Anda mencari alat untuk mengemudi dengan paku, modul persepsi Anda harus dikonfigurasi untuk mencari barang yang berat dan padat, modul aktor Anda harus merencanakan tindakan untuk mengambil palu darurat dan menggunakannya untuk mengemudi. paku, dan modul biaya Anda harus dapat menghitung apakah objek tersebut dapat digunakan dan cukup dekat atau Anda harus mencari sesuatu yang lain yang dapat dijangkau.

Menariknya, dalam arsitektur yang diusulkannya, LeCun mempertimbangkan dua mode operasi, terinspirasi oleh dikotomi “Berpikir Cepat dan Lambat” Daniel Kahneman. Agen otonom harus memiliki model operasi “Mode 1”, perilaku cepat dan refleksif yang secara langsung menghubungkan persepsi dengan tindakan, dan model operasi “Mode 2”, yang lebih lambat dan lebih terlibat dan menggunakan model dunia dan modul lain untuk menalar. dan rencana.

Pembelajaran yang diawasi sendiri

Meskipun arsitektur yang diusulkan LeCun menarik, penerapannya menimbulkan beberapa tantangan besar. Diantaranya adalah melatih semua modul untuk melakukan tugasnya. Dalam makalahnya, LeCun banyak menggunakan istilah “dapat dibedakan”, “berbasis gradien” dan “optimasi”, yang semuanya menunjukkan bahwa ia percaya bahwa arsitektur akan didasarkan pada serangkaian model pembelajaran mendalam yang bertentangan dengan sistem simbolik. dimana pengetahuan telah ditanamkan terlebih dahulu oleh manusia.

LeCun adalah pendukung pembelajaran mandiri, sebuah konsep yang telah dibicarakannya selama beberapa tahun. Salah satu hambatan utama dari banyak aplikasi pembelajaran mendalam adalah kebutuhan mereka akan contoh beranotasi manusia, itulah sebabnya mereka disebut model “pembelajaran yang diawasi”. Pelabelan data tidak berskala, dan lambat serta mahal.

Di sisi lain, model pembelajaran unsupervised dan self-supervised belajar dengan mengamati dan menganalisis data tanpa perlu label. Melalui pengawasan diri, anak-anak manusia memperoleh pengetahuan akal sehat tentang dunia, termasuk gravitasi, dimensi dan kedalaman, kegigihan objek dan bahkan hal-hal seperti hubungan sosial. Sistem otonom juga harus bisa belajar sendiri.

Beberapa tahun terakhir telah terlihat beberapa kemajuan besar dalam pembelajaran tanpa pengawasan dan pembelajaran mandiri, terutama dalam model transformator, arsitektur pembelajaran mendalam yang digunakan dalam model bahasa besar. Transformer mempelajari hubungan statistik kata-kata dengan menutupi bagian dari teks yang diketahui dan mencoba memprediksi bagian yang hilang.

Salah satu bentuk paling populer dari self-supervised learning adalah “contrastive learning”, di mana model diajarkan untuk mempelajari fitur laten gambar melalui masking, augmentasi, dan paparan berbagai pose dari objek yang sama.

Namun, LeCun mengusulkan jenis pembelajaran mandiri yang berbeda, yang ia gambarkan sebagai “model berbasis energi.” EBM mencoba untuk mengkodekan data berdimensi tinggi seperti gambar ke dalam ruang embedding berdimensi rendah yang hanya mempertahankan fitur yang relevan. Dengan demikian, mereka dapat menghitung apakah dua pengamatan terkait satu sama lain atau tidak.

Dalam makalahnya, LeCun mengusulkan “Joint Embedding Predictive Architecture” (JEPA), sebuah model yang menggunakan EBM untuk menangkap ketergantungan antara pengamatan yang berbeda.

Deskripsi Diagram dibuat secara otomatis
Arsitektur Prediktif Penyematan Bersama (JEPA)

“Keuntungan yang cukup besar dari JEPA adalah bahwa itu dapat memilih untuk mengabaikan detail yang tidak mudah diprediksi,” tulis LeCun. Pada dasarnya, ini berarti bahwa alih-alih mencoba memprediksi keadaan dunia pada tingkat piksel, JEPA memprediksi fitur laten berdimensi rendah yang relevan dengan tugas yang ada.

Dalam makalahnya, LeCun lebih lanjut membahas Hierarchical JEPA (H-JEPA), sebuah rencana untuk menumpuk model JEPA di atas satu sama lain untuk menangani penalaran dan perencanaan pada skala waktu yang berbeda.

“Kapasitas JEPA untuk mempelajari abstraksi menyarankan perluasan arsitektur untuk menangani prediksi pada beberapa skala waktu dan beberapa level abstraksi,” tulis LeCun. “Secara intuitif, representasi tingkat rendah mengandung banyak detail tentang input, dan dapat digunakan untuk memprediksi dalam jangka pendek. Tetapi mungkin sulit untuk menghasilkan prediksi jangka panjang yang akurat dengan tingkat detail yang sama. Sebaliknya, representasi abstrak tingkat tinggi memungkinkan prediksi jangka panjang, tetapi dengan mengorbankan banyak detail.”

Diagram, garis waktu Deskripsi dibuat secara otomatis
Arsitektur Prediktif Penyematan Bersama Hirarki (H-JEPA)

Jalan menuju agen otonom

Dalam makalahnya, LeCun mengakui bahwa banyak hal yang masih belum terjawab, termasuk mengonfigurasi model untuk mempelajari fitur laten yang optimal dan arsitektur serta fungsi yang tepat untuk modul memori jangka pendek dan keyakinannya tentang dunia. LeCun juga mengatakan bahwa modul konfigurator masih menjadi misteri dan lebih banyak pekerjaan yang harus dilakukan untuk membuatnya bekerja dengan benar.

Tetapi LeCun dengan jelas menyatakan bahwa proposal saat ini untuk mencapai AI tingkat manusia tidak akan berhasil. Misalnya, satu argumen yang telah mendapatkan banyak daya tarik dalam beberapa bulan terakhir adalah bahwa “semuanya tentang skala.” Beberapa ilmuwan menyarankan bahwa dengan menskalakan model transformator dengan lebih banyak lapisan dan parameter dan melatihnya pada kumpulan data yang lebih besar, pada akhirnya kita akan mencapai kecerdasan umum buatan.

LeCun membantah teori ini, dengan alasan bahwa LLM dan transformer bekerja selama mereka dilatih pada nilai-nilai diskrit.

“Pendekatan ini tidak bekerja untuk modalitas kontinu dimensi tinggi, seperti video. Untuk merepresentasikan data tersebut, perlu untuk menghilangkan informasi yang tidak relevan tentang variabel yang akan dimodelkan melalui encoder, seperti pada JEPA,” tulisnya.

Teori lain adalah “hadiah sudah cukup,” yang diusulkan oleh para ilmuwan di DeepMind. Menurut teori ini, fungsi penghargaan yang tepat dan algoritma pembelajaran penguatan yang benar adalah semua yang Anda butuhkan untuk membuat kecerdasan umum buatan.

Tapi LeCun berpendapat bahwa sementara RL mengharuskan agen untuk terus berinteraksi dengan lingkungannya, banyak pembelajaran yang dilakukan manusia dan hewan adalah melalui persepsi murni.

LeCun juga membantah pendekatan hybrid “neuro-symbolic”, dengan mengatakan bahwa model mungkin tidak memerlukan mekanisme eksplisit untuk manipulasi simbol, dan menjelaskan penalaran sebagai “minimalisasi energi atau kepuasan kendala oleh aktor menggunakan berbagai metode pencarian untuk menemukan kombinasi yang cocok dari tindakan dan variabel laten.”

Masih banyak yang harus dilakukan sebelum cetak biru LeCun menjadi kenyataan. “Ini pada dasarnya adalah apa yang saya rencanakan untuk dikerjakan, dan apa yang saya harap dapat menginspirasi orang lain untuk bekerja, selama dekade berikutnya,” tulisnya di Facebook setelah menerbitkan makalah tersebut.

Misi VentureBeat adalah menjadi alun-alun kota digital bagi para pengambil keputusan teknis untuk memperoleh pengetahuan tentang teknologi dan transaksi perusahaan yang transformatif. Pelajari lebih lanjut tentang keanggotaan.

Leave a Reply

Your email address will not be published.