Sabtu, Desember 14, 2024
Teknologi Kumpulan data terbaru Meta akan melatih mesin pengenalan suara di ‘cluster’ speaker

Kumpulan data terbaru Meta akan melatih mesin pengenalan suara di ‘cluster’ speaker

16
0

IndonesiaDiscover –

Ini tahun 2023 dan, maaf, entah bagaimana Siri masih tidak mengerti. Terlepas dari tsunami kemajuan yang telah dinikmati sistem AI generatif dalam beberapa bulan terakhir, asisten sintetis pada perangkat seluler kami tetap hampir sama tulinya seperti pada tahun 2011. Namun, kumpulan data yang baru dikembangkan dari Meta AI menjanjikan peningkatan kinerja seperti itu. alat pengenalan ucapan otomatis (ASR) dengan mengelompokkan ucapan pada “tingkat ucapan”.

Meta telah lama berupaya meningkatkan kinerja ASR-nya, mengajari mereka untuk berlatih tanpa bantuan transkrip, mengenali lebih dari 4.000 bahasa lisan, dan bahkan membaca gerak bibir dengan kemahiran yang lebih tinggi daripada pakar manusia. Namun, banyak kumpulan data yang digunakan untuk melatih model ASR disusun berdasarkan demografis — kelompok usia, jenis kelamin, kebangsaan, aksen bahasa Inggris — yang membatasi variasi pengucapan yang dilatihkan oleh model, yang pada akhirnya menghambat fungsinya dalam memahami sebagian besar pengguna .

Untuk menyiasatinya, Meta AI telah mengembangkan kumpulan data yang mengandalkan metode pengelompokan ucapan. “Alih-alih membagi kumpulan data berdasarkan informasi demografis pembicara … algoritme yang kami usulkan mengelompokkan ucapan pada tingkat ucapan,” tim Meta AI menjelaskan dalam posting blog hari Rabu. “Satu kluster akan berisi ucapan serupa dari kelompok penutur yang beragam. Kami kemudian dapat melatih model kami menggunakan berbagai kluster dan menggunakan kumpulan data keadilan untuk mengukur bagaimana model tersebut memengaruhi hasil di berbagai kelompok demografis.”

Kumpulan data yang dihasilkan Meta mencakup lebih dari 27.000 ucapan perintah yang dikumpulkan dari 595 sukarelawan AS yang dibayar. Ucapan mereka berkisar pada tujuh tema utama — musik, penangkapan, utilitas, kontrol notifikasi, perpesanan, panggilan, dan dikte — yang kemudian dapat digunakan peneliti lain untuk melatih model dan asisten digital mereka sendiri. Anjuran termasuk bertanya kepada pembicara bagaimana mereka akan mencari lagu atau membuat rencana dengan teman dan memutuskan tempat untuk bertemu.

Untuk mengevaluasi sistem baru ini, Meta pertama-tama melatih model video Facebook berbahasa Inggris yang tersedia untuk umum. Peneliti kemudian mengevaluasi model tersebut menggunakan dua kumpulan data lain: Percakapan Santai v1, yang dirilis Meta pada tahun 2021, dan kumpulan data yang tidak teridentifikasi yang dikumpulkan dari pemasok data untuk ASR, yang mencakup 48.000 ucapan lisan dari 867 individu.

“Algoritme yang kami usulkan adalah bagian dari fokus jangka panjang Meta pada AI yang bertanggung jawab dan hanya satu bagian dari pendekatan holistik kami untuk mengatasi masalah keadilan,” tulis para peneliti. Ke depan, tim sedang menjajaki mengadaptasi sistem ke bahasa lain.

Tinggalkan Balasan