Microsoft araştırmacıları, yalnızca birkaç saniyelik eğitimle bir kişinin sesini taklit etmek için yapay zeka kullanan yeni bir uygulamayı duyurdu. Ses modeli daha sonra metinden konuşmaya uygulamaları için kullanılabilir.Araştırmacılar, ücretsiz bir dağıtım hizmeti olan arXiv'de çevrimiçi olarak yayınlanan bir makalede, VALL-E adlı uygulamanın bir konuşmacının yalnızca üç saniyelik kayıt kaydıyla yüksek kaliteli kişiselleştirilmiş konuşmayı sentezlemek için kullanılabileceğini yazdı. -bilimsel makaleler için erişim arşivi.Artık konuşmayı kesip bir ses akışına yapıştırabilen programlar var ve bu konuşma, yazılan metinden konuşmacının sesine dönüştürülüyor. Ancak program, bir saat veya daha fazla sürebilen bir kişinin sesini taklit edecek şekilde eğitilmelidir. "Bu modelle ilgili göze çarpan şeylerden biri, bunu saniyeler içinde yapması. New York City'deki bir tüketici teknolojisi danışmanlık firması olan Reticle Research'ün baş analisti Ross Rubin, TechNewsWorld'e verdiği demeçte, bu çok etkileyici.Araştırmacılara göre VALL-E, hem konuşma doğallığı hem de konuşmacı benzerliği açısından mevcut son teknoloji metin okuma (TTS) sistemlerinden önemli ölçüde daha iyi performans gösteriyor. Ayrıca VALL-E, konuşmacının duygularını ve akustik ortamını koruyabilir. Dolayısıyla, örneğin bir konuşma örneği bir telefonla kaydedilmişse, o sesi kullanan metin bir telefondan okunuyormuş gibi ses çıkarır.
Jyoti, TechNewsWorld'e "Bu, yeni bir ses oluşturmak için çok daha uzun bir eğitim süresi gerektiren önceki modellere göre önemli bir gelişme" dedi."Bu teknoloji için henüz ilk günler ve kulağa daha insansı gelmesi için daha fazla iyileştirme yapılması bekleniyor" diye ekledi.
Jyoti de VALL-E'de etik endişelerin kaynadığını görüyor. "Teknoloji ilerledikçe VALL-E ve benzeri teknolojilerin ürettiği sesler daha ikna edici hale gelecek" diye açıkladı. "Bu, potansiyel bir kurbanın bildiği gerçek insanların seslerini taklit eden gerçekçi spam çağrılarına kapı açar."
"Ayrıca, ilk ses örneğinin nasıl elde edildiğine bağlı olarak, ses örneği örneğin bir telefon hattı üzerinden elde edilmişse, federal Telefon Dinleme Yasası ve eyalet telefon dinleme yasaları kapsamında sonuçlar olabilir" diye ekledi."Son olarak," diye belirtti Teich, "sınırlı koşullarda, bu tür bir ses klonlamasının bir hükümet aktörü tarafından meşru sesleri susturmak, meşruiyetini ortadan kaldırmak veya ifade özgürlüğü haklarını kullanmaktan alıkoymak için kullanılması durumunda Birinci Değişiklik endişeleri olabilir.""Bu teknolojiler olgunlaştıkça, teknoloji ilerleyip daha erişilebilir hale geldikçe, teknolojiyi doğrudan ele almak ve kötüye kullanımını önlemek için özel yasalara ihtiyaç duyulabilir" dedi.
"Süper Etkileyici"
Bir bilgisayar bilimcisi ve yapay zeka tarafından oluşturulan, hiç bitmeyen bir tartışma içeren bir web sitesinin yaratıcısı olan Giacomo Miceli, VALL-E'nin 2022'nin başlarında piyasaya sürülen YourTTS gibi önceki son teknoloji sistemlere göre gözle görülür bir gelişme olduğunu söyledi. Werner Herzog ve Slavoj Žižek'in sentetik konuşması.TechNewsWorld'e konuşan Miceli, "VALL-E ile ilgili ilginç olan şey, yalnızca bir sesi klonlamak için yalnızca üç saniyelik sese ihtiyaç duyması değil, aynı zamanda o ses, duygusal tını ve herhangi bir arka plan gürültüsüyle ne kadar yakından eşleşebileceği gerçeğidir." Küresel bir pazar araştırma şirketi olan IDC'de AI ve otomasyondan sorumlu grup başkan yardımcısı Ritu Jyoti, VALL-E'yi "önemli ve süper etkileyici" olarak nitelendirdi.Jyoti, TechNewsWorld'e "Bu, yeni bir ses oluşturmak için çok daha uzun bir eğitim süresi gerektiren önceki modellere göre önemli bir gelişme" dedi."Bu teknoloji için henüz ilk günler ve kulağa daha insansı gelmesi için daha fazla iyileştirme yapılması bekleniyor" diye ekledi.
Duygu Emülasyonu Sorgulandı
ChatGPT'nin üreticisi OpenAI'den farklı olarak Microsoft, VALL-E'yi halka açmadı, bu nedenle performansıyla ilgili sorular devam ediyor. Örneğin, uygulamanın ürettiği konuşmanın bozulmasına neden olabilecek faktörler var mı?Miceli, "Ses parçacığı ne kadar uzun üretilirse, bir insanın kulağa biraz kötü gelen şeyleri duyma şansı o kadar yüksek olur" dedi. "Kelimeler net olmayabilir, gözden kaçabilir veya konuşma sentezinde tekrarlanabilir.""Duygusal kayıtlar arasında geçiş yapmanın kulağa doğal gelmemesi de mümkün" diye ekledi. Uygulamanın bir konuşmacının duygularını taklit etme yeteneği de şüphe uyandırıyor. California, San Jose'deki SmartTech Research'ün başkanı ve baş analisti Mark N. Vena, "Bu yeteneğin ne kadar güçlü olduğunu görmek ilginç olacak" dedi."Yapay zeka algoritmalarının çok daha uzun ses örnekleri gerektiren mevcut sınırlamaları göz önüne alındığında, bunu yalnızca birkaç saniyelik sesle yapabileceklerini iddia etmelerine inanmak zor," diye devam etti.Etik kaygılar
Uzmanlar, VALL-E için faydalı uygulamaların yanı sıra pek de faydalı olmayan uygulamalar da görüyor. Jyoti, konuşma düzenleme ve seslendirme sanatçılarının değiştirilmesinden alıntı yaptı. Miceli, teknolojinin podcast yayıncıları için düzenleme araçları oluşturmak, akıllı hoparlörlerin sesini özelleştirmek ve ayrıca mesajlaşma sistemlerine ve sohbet odalarına, video oyunlarına ve hatta navigasyon sistemlerine dahil edilebileceğini belirtti.Miceli, "Madalyonun diğer yüzü, kötü niyetli bir kullanıcının, örneğin bir politikacının sesini klonlayabilmesi ve onlara akıl almaz veya kışkırtıcı gelen şeyler söylemesini veya genel olarak yanlış bilgi veya propaganda yaymasını sağlamasıdır" diye ekledi.Vena, Microsoft'un iddia ettiği kadar iyiyse, teknolojide muazzam bir suistimal potansiyeli görüyor. "Finansal hizmetler ve güvenlik düzeyinde, hain aktörler tarafından gerçekten zarar verici şeyler yapabilecek kullanım durumlarını ortaya çıkarmak zor değil" dedi.Jyoti de VALL-E'de etik endişelerin kaynadığını görüyor. "Teknoloji ilerledikçe VALL-E ve benzeri teknolojilerin ürettiği sesler daha ikna edici hale gelecek" diye açıkladı. "Bu, potansiyel bir kurbanın bildiği gerçek insanların seslerini taklit eden gerçekçi spam çağrılarına kapı açar."
"Politikacılar ve diğer tanınmış kişiler de taklit edilebilir" diye ekledi.
"Potansiyel güvenlik endişeleri olabilir," diye devam etti. “Örneğin, bazı bankalar ses şifrelerine izin veriyor, bu da kötüye kullanımla ilgili endişeleri artırıyor. Suistimali durdurmak için yapay zeka tarafından üretilen içerik ile yapay zeka tespit eden yazılım arasında bir silahlanma yarışının tırmanmasını bekleyebiliriz.”Jyoti, "VALL-E'nin şu anda mevcut olmadığını not etmek önemlidir," diye ekledi. "Genel olarak, yapay zekayı düzenlemek çok önemlidir. Microsoft'un VALL-E kullanımını düzenlemek için hangi önlemleri aldığını görmemiz gerekecek."Avukatlara Girin
Teknolojiyle ilgili yasal sorunlar da ortaya çıkabilir. Michael L. Teich, "Maalesef, bu tür sorunları doğrudan çözmek için mevcut, yeterli yasal araçlar bulunmayabilir ve bunun yerine, teknolojinin nasıl kötüye kullanıldığını kapsayan bir yığın yasa, bu tür kötüye kullanımları azaltmak için kullanılabilir" dedi. ulusal bir fikri mülkiyet hukuku firması olan Harness IP'de müdür."Örneğin," diye devam etti, "ses klonlama, gerçek bir kişinin sesinin derin bir sahtekarlığıyla sonuçlanabilir, bu da bir dinleyiciyi bir dolandırıcılığa kaptırmak için kandırmak için kullanılabilir veya hatta bir seçim adayının sesini taklit etmek için kullanılabilir. Bu tür suistimaller, dolandırıcılık, iftira veya seçim yanlış bilgilendirme yasaları alanlarında büyük olasılıkla yasal sorunlara yol açacak olsa da, teknolojinin kendisinin kullanımını ele alacak belirli yapay zeka yasalarının eksikliği var.”"Ayrıca, ilk ses örneğinin nasıl elde edildiğine bağlı olarak, ses örneği örneğin bir telefon hattı üzerinden elde edilmişse, federal Telefon Dinleme Yasası ve eyalet telefon dinleme yasaları kapsamında sonuçlar olabilir" diye ekledi."Son olarak," diye belirtti Teich, "sınırlı koşullarda, bu tür bir ses klonlamasının bir hükümet aktörü tarafından meşru sesleri susturmak, meşruiyetini ortadan kaldırmak veya ifade özgürlüğü haklarını kullanmaktan alıkoymak için kullanılması durumunda Birinci Değişiklik endişeleri olabilir.""Bu teknolojiler olgunlaştıkça, teknoloji ilerleyip daha erişilebilir hale geldikçe, teknolojiyi doğrudan ele almak ve kötüye kullanımını önlemek için özel yasalara ihtiyaç duyulabilir" dedi.