
IndonesiaDiscover –
Meskipun belum siap untuk mengantarkan masa depan Doolittle yang telah kita tunggu-tunggu, metode penerjemahan AI modern terbukti lebih dari cukup dalam mengubah secara akurat sekitar 6.500 sistem komunikasi lisan dan tulisan umat manusia antara satu sama lain. Masalahnya adalah masing-masing model ini cenderung hanya melakukan satu atau dua tugas dengan sangat baik — menerjemahkan dan mengubah teks menjadi ucapan, ucapan menjadi teks, atau antara salah satu dari dua rangkaian tersebut — sehingga Anda akhirnya harus menghancurkan banyak model di atas. satu sama lain untuk menciptakan kinerja umum yang terlihat seperti Google Terjemahan atau layanan bahasa Facebook yang tak terhitung jumlahnya.
Itu adalah proses komputasi yang intensif, jadi Meta mengembangkan satu model yang dapat melakukan semuanya. SeamlessM4T adalah “model multibahasa dan multitask dasar yang menerjemahkan dan menyalin ucapan dan teks dengan lancar,” tulis blog Meta dari hari Selasa. Itu dapat menerjemahkan antara hampir 100 bahasa untuk fungsi ucapan-ke-teks dan teks-ke-teks, ucapan-ke-ucapan dan teks-ke-ucapan mendukung bahasa yang sama sebagai input dan mengeluarkannya dalam 36 bahasa lainnya, termasuk bahasa Inggris.
Dalam postingan blog mereka, tim peneliti Meta mencatat bahwa SeamlessM4T “secara signifikan meningkatkan kinerja untuk bahasa sumber daya rendah dan menengah yang kami dukung,” sambil mempertahankan “kinerja yang kuat pada bahasa sumber daya tinggi, seperti Inggris, Spanyol, dan Jerman. ” Meta membangun SeamlessM4T dari arsitektur model UnitY multitask berbasis PyTorch yang sudah ada, yang secara asli telah melakukan berbagai terjemahan modal serta pengenalan ucapan otomatis. Ini menggunakan sistem BERT 2.0 untuk pengkodean audio, memecah input menjadi token komponennya untuk analisis, dan vocoder unit HiFi-GAN untuk menghasilkan respons lisan.
Meta juga telah menyusun korpus paralel pidato-ke-teks dan pidato-ke-teks open-source besar-besaran, yang dijuluki SeamlessAlign. Perusahaan menambang “puluhan miliar kalimat” dan “empat juta jam” ucapan dari repositori yang tersedia untuk umum untuk “secara otomatis menyelaraskan lebih dari 443.000 jam ucapan dengan teks, dan menciptakan sekitar 29.000 jam penyelarasan ucapan-ke-ucapan,” per blog. Saat diuji ketangguhannya, SeamlessM4T dilaporkan mengungguli pendahulunya (canggih saat ini) terhadap kebisingan latar belakang dan variasi gaya speaker masing-masing sebesar 37 persen dan 48 persen.
Seperti kebanyakan upaya penerjemahan mesin sebelumnya — apakah itu Llama 2, Massively Multilingual Speech (MMS), Universal Speech Translator (UST), atau proyek ambisius No Language Left Behind (NLLB) — SeamlessM4T bersifat open-source. “kami percaya SeamlessM4T adalah terobosan penting dalam pencarian komunitas AI untuk menciptakan sistem multitask universal,” tulis tim tersebut. “Seiring dengan pendekatan kami terhadap sains terbuka, kami sangat bersemangat untuk membagikan model kami secara publik untuk memungkinkan peneliti dan pengembang membangun teknologi ini.” Jika Anda tertarik untuk bekerja dengan SeamlessM4T sendiri, buka GitHub untuk mengunduh model, data pelatihan, dan dokumentasi.