Kamuya duyurulan öbür yapay zeka projelerinin birden fazla üzere, Meta da bugün lisan çeşitliliğini muhafazaya yardımcı olmak ve araştırmacıları temellerini geliştirmeye teşvik etmek için açık kaynaklı MMS. Şirket, “Bugün, araştırma topluluğundaki başka bireylerin çalışmalarımızı geliştirebilmesi için modellerimizi ve kodlarımızı herkese açık bir biçimde paylaşıyoruz” diye yazdı. “Bu çalışma sayesinde, dünyadaki inanılmaz lisan çeşitliliğini korumak için küçük bir katkı yapmayı umuyoruz.”
Konuşma tanıma ve metinden konuşmaya modelleri, tipik olarak, eşlik eden transkripsiyon etiketleriyle birlikte binlerce saatlik ses eğitimi gerektiriyor. Lakin model, endüstrileşmiş ülkelerde yaygın olarak kullanılmayan ve birçok önümüzdeki on yıllarda yok olma tehlikesiyle karşı karşıya olan lisanlar için Meta’nın da dediği üzere “bu bilgiler basitçe mevcut değil”.
Meta’nın yeni yapay zeka takviyeli lisan modeli 4000 lisanı tanıyabiliyor!
Meta, ses datalarını toplamak için alışılmadık bir yaklaşım kullandı: çeviri edilmiş dini metinlerin ses kayıtlarından yararlanmak. Şirket, “İncil üzere birçok farklı lisana çevrilmiş ve çevirileri metin tabanlı lisan çevirisi araştırması için geniş çapta incelenmiş dini metinlere yöneldik” dedi. “Bu çeviriler, bu metinleri farklı lisanlarda okuyan şahısların halka açık ses kayıtlarına sahip.” İncil’in etiketlenmemiş kayıtlarını ve benzeri metinleri birleştiren Meta’nın araştırmacıları, modelin mevcut lisanlarını 4.000’in üzerine çıkardı.
Meta ayrıyeten “Ses kayıtlarının içeriği dini olsa da, tahlilimiz bunun modeli daha fazla dini lisan üretmeye yönlendirmediğini gösteriyor” diye yazdı. “Bunun, konuşma tanıma için büyük lisan modellerine (LLM’ler) yahut diziden diziye modellere kıyasla çok daha kısıtlı olan bağlantıcı bir zamansal sınıflandırma (CTC) yaklaşımı kullanmamızdan kaynaklandığına inanıyoruz.” Ayrıyeten, dinî kayıtların birçoklarının erkek konuşmacılar tarafından okunmasına karşın, bu da bir erkek önyargısı yaratmadı: bayan ve erkek seslerinde eşit derecede âlâ performans gösteriyor.