Minggu, Juni 8, 2025
Teknologi MusicGen AI sumber terbuka Meta menggunakan teks untuk membuat mashup genre lagu

MusicGen AI sumber terbuka Meta menggunakan teks untuk membuat mashup genre lagu

69
0

IndonesiaDiscover –

Tim riset Audiocraft Meta baru saja merilis MusicGen, model bahasa pembelajaran mendalam open source yang dapat menghasilkan musik baru berdasarkan petunjuk teks dan bahkan diselaraskan dengan lagu yang sudah ada, Dekoder dilaporkan. Ini sangat mirip dengan ChatGPT untuk audio, membiarkan Anda mendeskripsikan gaya musik yang Anda inginkan, memasukkan lagu yang ada (opsional) dan kemudian mengklik “Hasilkan”. Setelah beberapa saat (sekitar 160 detik dalam kasus saya), itu mengeluarkan musik pendek yang semuanya baru berdasarkan permintaan teks dan melodi Anda.

Demo di situs Hugging Face AI Facebook memungkinkan Anda mendeskripsikan musik Anda, memberikan beberapa contoh seperti “lagu pop mengemudi tahun 80-an dengan drum berat dan bantalan synth di latar belakang.” Anda kemudian dapat “mengkondisikan” itu pada lagu tertentu selama 30 detik teratas, dengan kontrol yang memungkinkan memilih bagian tertentu dari itu. Kemudian, Anda cukup menekan generate dan itu membuat sampel berkualitas tinggi hingga 12 detik.

Tim menggunakan 20.000 jam musik berlisensi untuk pelatihan, termasuk 10.000 trek musik berkualitas tinggi dari kumpulan data internal, bersama dengan trek Shutterstock dan Pond5. Untuk membuatnya lebih cepat, mereka menggunakan tokenizer audio 32Khz EnCodec Meta untuk menghasilkan potongan musik yang lebih kecil yang dapat diproses secara paralel. “Tidak seperti metode yang ada seperti MusicLM, MusicGen tidak memerlukan representasi semantik yang diawasi sendiri (dan memiliki) hanya 50 langkah regresi otomatis per detik audio,” tulis Insinyur Hugging Face ML Ahsen Khaliq dalam sebuah tweet.

Bulan lalu, Google merilis generator musik serupa bernama MusicLM, tetapi MusicGen tampaknya memberikan hasil yang sedikit lebih baik. Pada halaman sampel, para peneliti membandingkan keluaran MusicGen dengan MusicLM dan dua model lainnya, Riffusion dan Musai, untuk membuktikan hal tersebut. Itu dapat dijalankan secara lokal (disarankan GPU dengan setidaknya 16GB RAM) dan tersedia dalam empat ukuran model, dari kecil (300 juta parameter) hingga besar (3,3 miliar parameter) — dengan yang terakhir memiliki potensi terbesar untuk menghasilkan musik yang kompleks .

Steve Dent · Ode untuk kegembiraan musik pop tahun 80-an

Seperti yang disebutkan, MusicGen adalah open source dan bahkan dapat digunakan untuk menghasilkan musik komersial (saya mencobanya dengan “Ode to Joy” dan beberapa genre yang disarankan dan hasilnya di atas… dicampur). Tetap saja, ini adalah contoh terbaru dari kecepatan pengembangan AI yang menakjubkan selama setengah tahun terakhir, dengan model pembelajaran mendalam yang mengancam akan melakukan serbuan ke genre lain.

Semua produk yang direkomendasikan oleh Engadget dipilih oleh tim editorial kami, terlepas dari perusahaan induk kami. Beberapa cerita kami menyertakan tautan afiliasi. Jika Anda membeli sesuatu melalui salah satu tautan ini, kami dapat memperoleh komisi afiliasi. Semua harga adalah benar pada saat penerbitan.

Tinggalkan Balasan