banner large

Setahun dalam pembuatan, model bahasa AI BigScience akhirnya tersedia – TechCrunch

Comment
X
Share

Setelah lebih dari satu tahun perencanaan dan pelatihan, proyek yang dipimpin oleh sukarelawan telah menghasilkan model bahasa sumber terbuka yang mereka klaim sekuat GPT-3 OpenAI, tetapi gratis dan terbuka untuk digunakan siapa saja (jika mereka memiliki kekuatan komputasi) . Dijuluki Bloom, model ini tersedia dalam sumber terbuka bersama dengan kode dan kumpulan data yang digunakan untuk membuatnya. Startup AI yang berbasis di Brooklyn, Hugging Face, telah merilis aplikasi web gratis yang memungkinkan siapa pun mencoba Bloom tanpa harus mengunduhnya.

Bloom adalah gagasan dari BigScience, sebuah proyek internasional yang didukung oleh komunitas dengan tujuan membuat model bahasa alami yang besar tersedia secara luas untuk penelitian. Model bahasa besar, atau disingkat “LLMs”, dapat menerjemahkan, meringkas, dan menulis teks dengan nuansa seperti manusia — kurang lebih. (Lihat GPT-3.) Tetapi secara historis mereka mahal untuk dibuat, menjauhkannya dari jangkauan peneliti dan tetap berada di tangan perusahaan Teknologi Besar seperti Meta, Google, dan Microsoft.

Itu akhirnya berubah, sebagian berkat upaya BigScience. Lebih dari 1.000 peneliti sukarelawan kelompok itu — didukung oleh ahli etika, filsuf, sarjana hukum, dan insinyur dari perusahaan rintisan dan perusahaan teknologi besar — ​​menghabiskan waktu berbulan-bulan untuk bekerja menuju Bloom, yang menyaingi LLM skala yang dibuat oleh perusahaan seperti OpenAI dan Alphabet’s DeepMind. Salah satu model open source terbesar untuk bekerja di berbagai bahasa, Bloom dirancang untuk diterapkan dalam berbagai aplikasi penelitian, seperti mengekstrak informasi dari teks sejarah.

Bloom mampu menghasilkan teks dalam 46 bahasa dan dialek alami dan 13 bahasa pemrograman, ”baca posting blog yang dibagikan dengan TechCrunch sebelum rilis. “Meskipun tidak pernah dilatih untuk tugas-tugas tertentu, Bloom dapat diminta untuk menghasilkan ringkasan atau terjemahan teks, kode keluaran dari instruksi, dan mengikuti petunjuk untuk melakukan tugas-tugas asli seperti menulis resep, mengekstrak informasi dari artikel berita, atau mengarang. kalimat menggunakan kata yang baru ditemukan … Kinerja Bloom akan terus meningkat saat lokakarya terus bereksperimen dan maju di atas Bloom.”

Pendukung BigScience juga berharap Bloom akan memacu penyelidikan baru tentang cara untuk memerangi masalah yang mengganggu semua LLM, termasuk bias dan toksisitas. LLM memiliki kecenderungan untuk menyebarkan kebohongan dan menunjukkan prasangka terhadap agama, jenis kelamin, ras, dan penyandang disabilitas. Mereka juga bergumul dengan prinsip dasar penulisan, sering kali mengubah topik pembicaraan tanpa segue dan tanpa henti mengulangi — atau bahkan bertentangan — dengan diri mereka sendiri.

“[Bloom] menunjukkan kekuatan berkelanjutan dari open source dan sains terbuka bahkan untuk model dasar yang mahal dan besar,” Richard Socher, CEO You.com dan mantan kepala ilmuwan di Salesforce, mengatakan kepada TechCrunch melalui email. Socher tidak terlibat dengan BigScience. “Ini juga menunjukkan bahwa dalam AI, tidak ada organisasi yang memiliki keunggulan besar untuk waktu yang lama. Begitu sebuah organisasi menunjukkan sesuatu dapat dilakukan, kemampuan yang sama akan muncul enam hingga 12 bulan setelahnya di tempat lain.”

Awal yang sederhana

Asal usul BigScience terletak pada diskusi beberapa tahun lalu antara Hugging Face chief science officer Thomas Wolf, Stéphane Requena dari GENCI dan Pierre-François Lavallée dari IDRIS. Para pendiri membayangkan membuat perangkat lunak, kumpulan data, LLM, dan alat untuk mengeksplorasi dampak sosial AI, yang hanya dalam beberapa tahun terakhir telah mendapat perhatian yang meningkat dari komunitas riset.

Segera, komite pengarah dibentuk untuk memberi anggota BigScience — yang berasal dari lebih dari 60 negara dan 250 institusi — saran ilmiah dan umum, merancang tugas kolaboratif dan menyelenggarakan lokakarya, hackathon, dan acara publik. Kelompok kerja yang berbeda ditugaskan untuk mengatasi tantangan seperti tata kelola data, membuktikan teorema dalam matematika dan strategi pengarsipan, serta privasi dan persetujuan yang diinformasikan dan masalah hukum lainnya.

Bloom adalah jumlah total dari pekerjaan mereka. Itu dilatih menggunakan waktu komputasi yang didanai publik (melalui hibah) senilai $7 juta pada superkomputer Jean Zay yang terletak di dekat Paris, Prancis, yang menempati peringkat di antara mesin paling kuat di dunia.

Diskusi yang kuat sedang berlangsung di kalangan akademis tentang dampak karbon dari pelatihan AI; pusat data tidak terlalu ramah lingkungan. Tetapi BigScience mengatakan bahwa Jean Zay, berkat sistem pendinginnya yang unik dan sumber tenaga nuklirnya, mampu melatih Bloom dengan jejak karbon yang setara dengan penerbangan Paris-ke-New York.

Seperti semua model bahasa, Bloom pada dasarnya adalah alat statistik untuk memprediksi kata-kata. Diberi sejumlah besar contoh dari set data pelatihan 1,6 terabyte, Bloom mempelajari seberapa besar kemungkinan kata-kata muncul berdasarkan pola, termasuk konteks semantik dari teks di sekitarnya. Misalnya, diberikan email tipikal yang diakhiri dengan fragmen “Menantikan …” Bloom mungkin melengkapinya dengan “… untuk mendengar kembali.”

Salah satu tujuan kelompok kerja BigScience adalah mengumpulkan data yang cukup representatif untuk melatih Bloom. Karena bias sistemik dalam sumber data publik, LLM non-Inggris secara tradisional tidak berkinerja sebaik rekan-rekan mereka yang berbahasa Inggris. Berdasarkan buku, publikasi akademis, transkripsi radio, podcast, dan situs web, kumpulan data 341 miliar kata yang digunakan untuk melatih Bloom bertujuan untuk menyandikan konteks budaya yang berbeda di seluruh bahasa, termasuk Swahili, Catalan, Bengali, dan Vietnam.

Grup BigScience memilih sendiri hampir dua pertiga dari kumpulan data dari 500 sumber, meminta saran dari kelompok komunitas termasuk komunitas pemrosesan bahasa alami Afrika Masakhane, LatinX di AI, dan Machine Learning Tokyo. Mereka disunting untuk privasi dan disaring untuk kualitas, misalnya mencoba untuk mengurangi representasi berlebihan dari situs porno, yang cenderung mengandung asosiasi seksis.

Bloom tidak sepenuhnya bebas bias — tidak ada LLM. Namun harapannya adalah dengan menjaga transparansi seputar data pelatihan, akan lebih mudah bagi peneliti untuk sampai ke akar prediksi dan pengambilan keputusan Bloom.

Ukuran besar

Pada 176 miliar parameter, Bloom kira-kira seukuran GPT-3. Parameter dalam pembelajaran mesin adalah bagian dari LLM yang dipelajari dari data pelatihan dan cenderung berkorelasi dengan efektivitas model pada tugas seperti menghasilkan teks.

Secara umum, model dengan parameter yang lebih tinggi membutuhkan lebih banyak daya komputasi untuk dilatih. Sebuah studi tahun 2020 dari AI21 Labs mematok biaya untuk mengembangkan model penghasil teks dengan hanya 1,5 miliar parameter hingga $1,6 juta; Bloom dilatih pada 384 GPU Nvidia A100 selama tiga bulan. Fakta itu telah mempersulit komunitas untuk menggunakan model bahasa yang besar dan canggih seperti Microsoft dan Nvidia Megatron-Turing Natural Language Generation (MT-NLG), yang memiliki 530 miliar parameter.

BigScience mengklaim bahwa researchers akan memiliki kemampuan untuk menggunakan Bloom dengan harga kurang dari $40 per jam di penyedia cloud. TapiDalam rangka untuk menghilangkan bahkan penghalang akses ini, organisasi berencana untuk merilis versi Bloom yang lebih kecil dan tidak terlalu membutuhkan perangkat keras dan sedang mengembangkan sistem terdistribusi yang akan memungkinkan lab untuk berbagi model di seluruh server mereka. Sebuah API juga sedang dikerjakan.

Bloom bergabung dengan ekosistem open source yang berkembang, LLM berkemampuan tinggi dengan penggunaan komersial dan penelitian yang luas. Pada bulan Februari, grup riset AI terbuka EleutherAI merilis GPT-NeoX-20B, yang pada saat itu mengungguli model bahasa publik lainnya di beberapa tolok ukur. Beberapa bulan kemudian, Meta open-source OPT-175B, yang diklaim perusahaan sebagai model bahasa 175 miliar parameter pertama yang tersedia untuk komunitas AI.

Mereka telah dimanfaatkan dengan baik — bisnis telah bermunculan di sekitar model EleutherAI. Tetapi beberapa peneliti takut akan penyalahgunaan. Di University of Maryland, para peneliti menemukan bahwa LLM mungkin saja menghasilkan berita palsu dan laporan keamanan siber yang cukup meyakinkan untuk menipu para ahli. Makalah lain yang ditulis bersama oleh para peneliti di Meta mengeksplorasi potensi bahaya yang mungkin timbul dari LLM yang memberikan saran yang buruk, terutama prognosis medis atau psikologis.

Banyak perusahaan yang menawarkan akses ke LLM melalui API, seperti OpenAI, menerapkan filter untuk menyingkirkan teks yang bermasalah. Tetapi model open source jelas tidak memiliki perlindungan seperti itu.

Menyadari potensi penyalahgunaan, Bloom hadir dengan dokumentasi yang menguraikan kemampuan dan keterbatasannya. Menggunakannya memerlukan persetujuan lisensi hukum yang mengikat peneliti untuk tidak menggunakan model untuk tujuan jahat. BigScience berencana untuk memantau bagaimana model diterapkan dan menyesuaikan lisensi dan dokumentasi yang diperlukan.

“Kami dijadwalkan untuk menambahkan lebih banyak bahasa, membuat model lebih kecil sehingga lebih mudah digunakan pada tingkat kinerja yang sama, dan kami akan mendukung upaya komunitas untuk mengembangkannya,” posting blog berlanjut. “Bloom adalah keluarga model hidup yang akan tumbuh, bukan model yang sudah selesai.”

Leave a Reply

Your email address will not be published. Required fields are marked *