Microsoft VALL-E AI Sesleri Kopyalıyor!
Microsoft VALL-E AI, sesinizi üç saniyelik bir ses klibinden kopyalayabilecek!
Microsoft VALL-E AI, sesinizi üç saniyelik bir ses klibinden kopyalayabilecek! Metin okuma modelleri genellikle önemli ölçüde daha uzun eğitim örnekleri gerektiriyor, ancak VALL-E çok kısa bir klipten bir ses sentezleyebilmekte. Gelin birlikte bakalım!
Microsoft’un yapay zeka dünyasına yaptığı son hamle , “üç saniyelik bir örnek klipten herhangi bir sesi yeniden oluşturabilen” dönüştürücü tabanlı bir metin-konuşma modeli olan VALL-E biçiminde çıkmaya hazırlanıyor. Siber güvenlik uzmanları, uygun korumalar olmadan daha gerçekçi kimlik avı saldırıları üzerine veya yanlış bilgi yaymak için kullanılarak tehlike oluşturabileceğini söylüyor.
VALL-E, yeni bir ses oluşturmak için biçimlendirme ve tanımlama süresini kısaltmasının yanı sıra orijinal örneğin tonlamasını, vurgulamasını koruyarak diğer modellere göre çok daha doğal tınlayan sentetik bir ses oluşturmakta. Yani herhangi birinin sesini yalnızca 3 saniyede analiz ederek sanki telefonun ucunda bulunan kişiyi ya da ses dosyasındaki kişiyi gerçekten o gibi bize sunabilecek. Bunlar daha sonra metinden konuşmaya komut dosyası yazılırken gerektiği gibi yönlendirilebilir hale geliyor olacak.
Microsoft VALL-E AI, Sesleri Kopyalıyor!
Bu özelliklere sahip olmak, bir kişinin bir telefon görüşmesinden, şahsen ve hatta video, podcast gibi kaydedilen yalnızca üç saniyelik sesiyle, modelin herhangi bir cümleyi söylemek için o sesi analiz edip dönüştürebileceği anlamına gelmekte. Potansiyel olarak bir politikacının, aktörün ve hatta “para isteyen” bir aile üyesinin ağzına konulan kelimeleri duyuyor gibi olabilirsiniz.
Microsoft, önceki ses modellerine göre sunduğu performansın ,gerçek bir ses mi yoksa sahte bir ses mi duyduğunuzu anlamanın zor olacağı bir noktaya kadar iyileştiğini söylüyor. Yani siber güvenlik uzmanları dahi bu kayıtları ayrıştırmakta oldukça zorlanabilir.
DALL-E 2 ve GPT-3’ü eğitmek için kullanılan büyük üretken AI modelleri gibi, geliştiriciler aracı oluşturmak için sistemi inanılmaz miktarda veri ile besledikleri dile getirildi. Microsoft VALL-E modelini eğitirken çoğu, Teams uygulaması kullanılarak yapılan kayıtlardan gelen 60.000 saatlik konuşmaları kullandıklarını açıkladılar.
Microsoft VALL-E kodu şu anda halka açık olarak sunulmuyor. Yalnızca araç kullanılarak üretilmiş örnek ses dosyaları yayınlandı. Microsoft’un VALL-E’yi genel erişim veya ticari bir araç olarak kullanıma sunmayı planlayıp planlamadığı da net olarak açıklanmadı.
Tesla’ nın insansı robotlarına “merhaba“!
Bir Yorum