banner large

Speechmatics mengumpulkan $62 juta untuk pendekatan inklusifnya terhadap AI ucapan-ke-teks – TechCrunch

Comment
X
Share

Minggu lalu saya menulis tentang startup AI yang membangun teknologi yang dapat mengubah, secara real time, aksen ucapan seseorang. Tetapi bagaimana jika tujuan AI sebaliknya adalah untuk memungkinkan orang berbicara dengan cara apa pun yang mereka lakukan, untuk dipahami sebagaimana adanya, dan untuk menghilangkan beberapa bias yang melekat pada banyak sistem AI dalam prosesnya? Ada kebutuhan besar untuk itu juga, dan sekarang sebuah perusahaan rintisan Inggris bernama Speechmatics — yang telah membangun AI untuk menerjemahkan ucapan ke teks, terlepas dari aksen atau cara orang tersebut berbicara — mengumumkan pendanaan $62 juta untuk memperluas bisnisnya.

Susquehanna Growth Equity dari AS memimpin putaran dengan investor Inggris AlbionVC dan IQ Capital juga berpartisipasi. Ini adalah Seri B adalah langkah besar untuk Speechmatics. Perusahaan ini awalnya berputar pada tahun 2006 dari penelitian AI di Cambridge oleh pendiri Dr. Tony Robinson, dan sebelum ini hanya mengumpulkan sekitar $ 10 juta (Albion dan IQ termasuk di antara pendukung sebelumnya, bersama dengan In-Q yang didukung CIA -Tel dan lain-lain).

Untuk sementara ia telah membangun basis pelanggan sekitar 170 — ia hanya menjual B2B, untuk mendukung layanan yang dihadapi konsumen atau yang menghadap bisnis — dan meskipun tidak mengungkapkan daftar lengkapnya, beberapa nama termasuk what3words, 3Play Media, Veritone, Deloitte UK, dan Vonage, yang menggunakan berbagai teknologi tidak hanya untuk membuat transkripsi dalam pengertian tradisional; tetapi untuk menyerap kata-kata yang diucapkan untuk membantu aspek lain dari fungsi aplikasi, seperti teks otomatis, atau untuk mendukung fitur aksesibilitas yang lebih luas.

Mesinnya hari ini mampu menerjemahkan ucapan ke teks dalam 34 bahasa, dan selain menggunakan dana untuk terus meningkatkan akurasi di sana, dan untuk pengembangan bisnis, itu juga akan menambahkan lebih banyak bahasa dan melihat kasus penggunaan yang berbeda, seperti sebagai membangun ucapan menjadi teks yang dapat digunakan di lingkungan kendaraan bermotor yang lebih rumit (di mana kebisingan dan getaran motor memengaruhi cara AI menyerap suara).

“Apa yang telah kami lakukan adalah mengumpulkan jutaan jam data dalam upaya kami untuk mengatasi bias AI. Tujuan kami adalah untuk memahami setiap suara, dalam berbagai bahasa, ”kata Katy Wigdahl, CEO startup (gelar yang dia pegang bersama Robinson, yang sejak itu mundur dari peran eksekutif baru-baru ini).

Ini terwujud dalam fokus produk perusahaan serta misinya, dan itu adalah sesuatu yang juga ingin diperluas.

“Cara kita memandang bahasa bersifat global,” kata Wigdahl. “Google akan memiliki paket yang berbeda untuk setiap versi bahasa Inggris tetapi satu paket kami akan memahami setiap versi.” Awalnya hanya membuat teknologinya tersedia melalui API pribadi yang dijualnya kepada pelanggan; sekarang dalam upaya untuk membawa lebih banyak pengguna dan berpotensi lebih banyak pengguna yang membayar, itu juga menawarkan lebih banyak alat API terbuka untuk pengembang untuk bermain dengan teknologi, dan sampler drag-and-drop di situsnya.

Dan memang, jika salah satu tantangan Speechmatics adalah dalam melatih AI untuk menjadi lebih manusiawi dalam pemahamannya tentang bagaimana orang berbicara, yang lain adalah mengukir nama untuk dirinya sendiri terhadap penyedia utama teknologi pidato-ke-teks lainnya.

Wigdahl mengatakan perusahaan saat ini bersaing dengan “teknologi besar” – yaitu, perusahaan besar seperti Amazon, Google dan Microsoft (yang sekarang memiliki Nuansa) yang telah membangun mesin pengenalan suara dan menyediakan teknologi sebagai layanan kepada pihak ketiga.

Tetapi dikatakan secara konsisten mendapat skor lebih baik daripada ini dalam tes karena mampu memahami ketika bahasa diucapkan dalam banyak cara. (Satu tes yang dikutip kepada saya adalah ‘Disparitas Rasial dalam’ Stanford Pidato Studi pengakuan, dimana itu mencatat “akurasi keseluruhan 82,8% untuk suara Afrika-Amerika dibandingkan dengan Google (68,6%) dan Amazon (68,6).” Dikatakan bahwa “sama dengan pengurangan 45% dalam pidato kesalahan pengenalan — setara dengan tiga kata dalam kalimat rata-rata. Ini juga memberi TC “rata-rata tertimbang pesaing”:

Kredit Gambar: ahli pidato (terbuka di jendela baru)

Memang ada peluang besar di sini, meskipun, ketika Anda mempertimbangkan bahwa antara pengembang kecil dan raksasa teknologi besar seperti Apple, Google, Microsoft dan Amazon, ada ratusan perusahaan raksasa yang mungkin tidak cukup pada tingkat (atau minat) dari membangun AI internal untuk tujuan ini, tetapi jika Anda mengambil contoh perusahaan seperti Spotify, pasti tertarik dengannya, dan pasti lebih suka untuk tidak bergantung pada perusahaan besar itu, yang terkadang juga merupakan pesaing mereka, dan terkadang mereka foil langsung. (Untuk lebih jelasnya, Wigdahl tidak memberi tahu saya bahwa Spotify adalah pelanggan, tetapi mengatakan bahwa itu adalah contoh tipikal dari jenis ukuran dan situasi di mana seseorang mungkin mengetuk pintu Speechmatics.)

Itu juga sebagian alasan mengapa investor sangat tertarik untuk mendanai perusahaan ini. Susquehanna memiliki sejarah mendukung perusahaan yang tampaknya akan memberikan pemain kekuatan untuk mendapatkan uang mereka (itu adalah pendukung awal dan besar Tik Tok).

“Tim Speechmatics tidak diragukan lagi merupakan silsilah teknologi yang berbeda,” kata Jonathan Klahr, MD dari Susquehanna Growth Equity, dalam sebuah pernyataan. “Kami mulai melacak Speechmatics ketika perusahaan portofolio kami memberi tahu kami bahwa Speechmatics berulang kali menang dalam akurasi terhadap semua opsi lain termasuk yang berasal dari pemain ‘Big Tech’. Kami siap bekerja dengan tim untuk memastikan bahwa lebih banyak perusahaan dapat terpapar dan mengadopsi teknologi superior ini.” Klahr bergabung dengan dewan dengan putaran ini.

Memang, ketika teknologi menjadi lebih dinaturalisasi dan mereka yang membuatnya mencari lebih banyak cara untuk mengurangi setiap dan semua gesekan yang mungkin ada di sekitar penggunaan teknologi itu, suara telah muncul sebagai titik peluang utama, serta titik nyeri. Jadi memiliki teknologi yang berfungsi dalam “membaca” dan memahami semua jenis suara berpotensi dapat diterapkan dalam berbagai cara.

“Pandangan kami adalah suara akan menjadi antarmuka manusia-mesin yang semakin dominan dan Speechmatics adalah pemimpin kategori dalam menerapkan pembelajaran mendalam untuk berbicara, dengan kategori yang menentukan akurasi dan pemahaman di seluruh kasus penggunaan dan persyaratan industri,” tambah Robert Whitby-Smith, seorang mitra di AlbionVC. “Kami telah menyaksikan pertumbuhan tim dan produk yang mengesankan selama beberapa tahun terakhir sejak investasi Seri A kami pada tahun 2019 dan sebagai investor yang bertanggung jawab, kami senang dapat mendukung misi inklusif perusahaan untuk memahami setiap suara secara global.”

Leave a Reply

Your email address will not be published.