banner large

AI yang memecahkan masalah matematika, menerjemahkan 200 bahasa, dan menggambar kanguru – TechCrunch

Comment
X
Share

Penelitian di bidang pembelajaran mesin dan AI, yang sekarang menjadi teknologi utama di hampir setiap industri dan perusahaan, terlalu banyak untuk dibaca semua orang. Kolom ini, Perceptron, bertujuan untuk mengumpulkan beberapa penemuan dan makalah terbaru yang paling relevan — khususnya, tetapi tidak terbatas pada, kecerdasan buatan — dan menjelaskan mengapa itu penting.

Dalam kumpulan penelitian terbaru ini, Meta membuat sistem bahasa open-source yang diklaim sebagai yang pertama mampu menerjemahkan 200 bahasa berbeda dengan hasil “canggih”. Tidak mau kalah, Google merinci model pembelajaran mesin, Minerva, yang dapat memecahkan masalah penalaran kuantitatif termasuk pertanyaan matematika dan ilmiah. Dan Microsoft merilis model bahasa, Godel, untuk menghasilkan percakapan “realistis” yang sejalan dengan Lamda yang dipublikasikan secara luas oleh Google. Dan kemudian kami memiliki beberapa generator teks-ke-gambar baru dengan twist.

Model baru Meta, NLLB-200, adalah bagian dari inisiatif No Language Left Behind perusahaan untuk mengembangkan kemampuan penerjemahan bertenaga mesin untuk sebagian besar bahasa di dunia. Dilatih untuk memahami bahasa seperti Kamba (diucapkan oleh kelompok etnis Bantu) dan Lao (bahasa resmi Laos), serta lebih dari 540 bahasa Afrika yang tidak didukung dengan baik atau sama sekali oleh sistem terjemahan sebelumnya, NLLB-200 akan digunakan untuk menerjemahkan bahasa di Umpan Berita Facebook dan Instagram selain Alat Penerjemahan Konten dari Wikimedia Foundation, Meta baru-baru ini mengumumkan.

Terjemahan AI memiliki potensi untuk berkembang pesat — dan sudah memiliki scaled– jumlah bahasa yang dapat diterjemahkan tanpa keahlian manusia. Tetapi seperti yang telah dicatat oleh beberapa peneliti, kesalahan yang mencakup terminologi yang salah, kelalaian, dan kesalahan terjemahan dapat muncul dalam terjemahan yang dihasilkan AI karena sistemnya sebagian besar dilatih pada data dari internet — tidak semuanya berkualitas tinggi. Misalnya, Google Terjemahan pernah mengandaikan bahwa dokter adalah laki-laki sedangkan perawat adalah perempuan, sementara penerjemah Bing menerjemahkan frasa seperti “meja itu lembut” sebagai “die Tabelle” feminin dalam bahasa Jerman (yang merujuk pada tabel gambar).

Untuk NLLB-200, Meta mengatakan bahwa itu “benar-benar merombak” pipa pembersihan datanya dengan “langkah penyaringan utama” dan daftar penyaringan toksisitas untuk set lengkap 200 bahasa. Masih harus dilihat seberapa baik kerjanya dalam praktik, tetapi – seperti yang diakui oleh para peneliti Meta di belakang NLLB-200 dalam makalah akademis yang menjelaskan metode mereka – tidak ada sistem yang sepenuhnya bebas dari bias.

Godel, juga, adalah model bahasa yang dilatih pada sejumlah besar teks dari web. Namun, tidak seperti NLLB-200, Godel dirancang untuk menangani dialog “terbuka” — percakapan tentang berbagai topik yang berbeda.

Godel

Kredit Gambar: Microsoft

Godel dapat menjawab pertanyaan tentang restoran atau melakukan dialog bolak-balik tentang topik tertentu, seperti sejarah lingkungan atau pertandingan olahraga baru-baru ini. Berguna, dan seperti Lamda Google, sistem dapat menarik konten dari seluruh web yang bukan merupakan bagian dari kumpulan data pelatihan, termasuk ulasan restoran, artikel Wikipedia, dan konten lain di situs web publik.

Tapi Godel menghadapi perangkap yang sama seperti NLLB-200. Dalam sebuah makalah, tim yang bertanggung jawab untuk membuatnya mencatat bahwa itu “dapat menghasilkan tanggapan yang berbahaya” karena “bentuk bias sosial dan toksisitas lainnya” dalam data yang digunakan untuk melatihnya. Menghilangkan, atau bahkan mengurangi, bias ini tetap menjadi tantangan yang belum terpecahkan di bidang AI — tantangan yang mungkin tidak akan pernah bisa diselesaikan sepenuhnya.

Model Minerva Google kurang berpotensi bermasalah. Seperti yang dijelaskan oleh tim di baliknya dalam posting blog, sistem belajar dari kumpulan data makalah ilmiah 118GB dan halaman web yang berisi ekspresi matematika untuk memecahkan masalah penalaran kuantitatif tanpa menggunakan alat eksternal seperti kalkulator. Minerva dapat menghasilkan solusi yang mencakup perhitungan numerik dan “manipulasi simbolik,” mencapai kinerja terdepan pada tolok ukur STEM yang populer.

Minerva bukanlah model pertama yang dikembangkan untuk memecahkan jenis masalah ini. Untuk beberapa nama, DeepMind Alphabet menunjukkan beberapa algoritma yang dapat membantu matematikawan dalam tugas-tugas yang kompleks dan abstrak, dan OpenAI telah bereksperimen dengan sistem yang dilatih untuk memecahkan masalah matematika tingkat sekolah dasar. Tetapi Minerva menggabungkan teknik terbaru untuk memecahkan pertanyaan matematika dengan lebih baik, kata tim, termasuk pendekatan yang melibatkan “mendorong” model dengan beberapa solusi langkah demi langkah untuk pertanyaan yang ada sebelum menyajikannya dengan pertanyaan baru.

Minerva

Kredit Gambar: Google

Minerva masih membuat banyak kesalahan, dan terkadang sampai pada jawaban akhir yang benar tetapi dengan alasan yang salah. Namun, tim berharap bahwa itu akan berfungsi sebagai dasar untuk model yang “membantu mendorong batas ilmu pengetahuan dan pendidikan.”

Pertanyaan tentang apa yang sebenarnya “diketahui” oleh sistem AI lebih filosofis daripada teknis, tetapi bagaimana mereka mengatur pengetahuan itu adalah pertanyaan yang adil dan relevan. Misalnya, sistem pengenalan objek dapat menunjukkan bahwa ia “memahami” bahwa kucing rumahan dan harimau serupa dalam beberapa hal dengan membiarkan konsep tumpang tindih secara sengaja dalam cara mengidentifikasinya — atau mungkin tidak benar-benar memahaminya dan dua jenis makhluk sama sekali tidak berhubungan dengannya.

Para peneliti di UCLA ingin melihat apakah model bahasa “memahami” kata-kata dalam pengertian itu, dan mengembangkan metode yang disebut “proyeksi semantik” yang menunjukkan bahwa ya, memang benar. Meskipun Anda tidak bisa begitu saja meminta model untuk menjelaskan bagaimana dan mengapa ikan paus berbeda dari ikan, Anda dapat melihat seberapa dekat ia mengaitkan kata-kata itu dengan kata-kata lain, seperti mamalia, besar, timbangan, dan seterusnya. Jika paus berasosiasi tinggi dengan mamalia dan besar tetapi tidak dengan sisik, Anda tahu dia punya ide bagus tentang apa yang dibicarakannya.

Contoh di mana hewan jatuh pada spektrum kecil hingga besar seperti yang dikonseptualisasikan oleh model.

Sebagai contoh sederhana, mereka menemukan hewan bertepatan dengan konsep ukuran, jenis kelamin, bahaya, dan basah (pemilihannya agak aneh) sementara negara bertepatan dengan cuaca, kekayaan, dan keberpihakan. Hewan adalah nonpartisan dan negara bagian tidak berjenis kelamin, sehingga semua trek.

Tidak ada tes yang lebih pasti saat ini apakah model memahami beberapa kata selain memintanya untuk menggambarnya — dan model teks-ke-gambar terus menjadi lebih baik. Model “Pathways Autoregressive Text-to-Image” atau Parti Google tampaknya menjadi salah satu yang terbaik, tetapi sulit untuk membandingkannya dengan pesaing (DALL-E et al.) tanpa akses, yang merupakan sesuatu yang ditawarkan oleh beberapa model. . Anda dapat membaca tentang pendekatan Parti di sini, bagaimanapun caranya.

Salah satu aspek menarik dari penulisan Google adalah menunjukkan bagaimana model bekerja dengan semakin banyak parameter. Lihat bagaimana gambar meningkat secara bertahap saat jumlahnya meningkat:

Perintahnya adalah “Sebuah foto potret seekor kanguru yang mengenakan hoodie oranye dan kacamata hitam biru berdiri di rumput di depan Sydney Opera House memegang tanda di dada yang bertuliskan Selamat Datang Teman!”

Apakah ini berarti model terbaik semuanya akan memiliki puluhan miliar parameter, yang berarti mereka akan membutuhkan waktu lama untuk dilatih dan dijalankan hanya di superkomputer? Untuk saat ini, tentu saja — ini semacam pendekatan kasar untuk meningkatkan berbagai hal, tetapi “tik-tok” AI berarti bahwa langkah selanjutnya bukan hanya membuatnya lebih besar dan lebih baik, tetapi membuatnya lebih kecil dan setara. Kita lihat siapa yang berhasil melakukannya.

Tidak ada yang ketinggalan dari kesenangan, Meta juga memamerkan model AI generatif minggu ini, meskipun salah satu yang diklaim memberi lebih banyak agensi kepada seniman yang menggunakannya. Setelah banyak bermain dengan generator ini sendiri, bagian yang menyenangkan adalah melihat apa yang dihasilkannya, tetapi mereka sering kali muncul dengan tata letak yang tidak masuk akal atau tidak “mendapatkan” perintahnya. Make-A-Scene dari Meta bertujuan untuk memperbaikinya.

Animasi gambar yang dihasilkan berbeda dari teks dan sketsa prompt yang sama.

Ini bukan ide yang orisinal – Anda melukis dalam siluet dasar dari apa yang Anda bicarakan dan menggunakannya sebagai dasar untuk menghasilkan gambar di atasnya. Kami melihat sesuatu seperti ini pada tahun 2020 dengan generator mimpi buruk Google. Ini adalah konsep yang serupa tetapi ditingkatkan untuk memungkinkannya membuat gambar realistis dari petunjuk teks menggunakan sketsa sebagai dasar tetapi dengan banyak ruang untuk interpretasi. Mungkin berguna bagi seniman yang memiliki gambaran umum tentang apa yang mereka pikirkan tetapi ingin memasukkan kreativitas model yang tidak terbatas dan aneh.

Seperti kebanyakan sistem ini, Make-A-Scene sebenarnya tidak tersedia untuk penggunaan umum, karena seperti yang lain, ini cukup rakus dalam hal komputasi. Jangan khawatir, kami akan segera mendapatkan versi yang layak dari hal-hal ini di rumah.

Leave a Reply

Your email address will not be published. Required fields are marked *