Microsoft’un Yapay Zekâ Aracı Fotoğrafları “Dile Getiriyor”
Microsoft, yapay zekâ aracı ile fotoğrafları gerçekçi videolara dönüştürebiliyor, hatta fotoğraflara şarkı söyletebiliyor.
Üretken yapay zekâların çıkışından oldukça daha ilkin fotoğraflara şarkılar söyletilmeye, animasyonlar yapılmaya başlanmıştı. Microsoft’un yapay zekâ aracı ise artık fotoğrafları daha gerçekçi videolara çeviriyor. Bu şekilde de kalmayan vasıta, fotoğraflara istenilen şeyi istenilen tarzda söyletebiliyor: buna şarkılar da dahil.
Microsoft Asya Araştırma tarafınca tanıtılan ve VASA-1 adında olan yapay zekâ aracı, herhangi bir fotoğrafı ya da çizimi alıp mevcud bir ses dosyası ile birleştirebiliyor. Yeni yapay zekâ aracı yüz ifadeleri ve kafa hareketleri oluşturabiliyor. Ek olarak konuşmalara uygun ağız hareketleri de üretiyor.
Görsellerin yapay zekâ eseri olduğu “şimdilik” belli oluyor
Her ne kadar VASA-1’in oluşturduğu görsellerde ağız ve baş hareketleri birazcık robotik gözükürken yakından baktığımızda da ses ve dudak senkronizasyonunda kaymalar oluyor. Gene de bu teknolojilerin süre içinde düzmece görüntüler oluşturmak ya da deepfake videolar üretmek için kullanılabileceği de akıllara geliyor. Araştırmacılar da bu durumun bilincinde ve o yüzden de kullanılabilir bir demo ya da API paylaşmadılar. Bu hızla gelişen teknolojinin de “mesuliyet sahibi şekilde” kullanılacağından güvenli olmak istediklerini belirtti.
Araştırmacılar gene de bu hızla gelişen teknolojinin iyi amaçlarla kullanılabileceğine inanıyor. VoxCeleb2 adlı veri seti ile, 6112 ünlüye ilişik görsellerle eğitilen yapay zekâ aracı yardımıyla yapay zekâ ile iletişimin güçlenebileceği, eğitim alanında yeni araçlar geliştirilebileceği ve kontakt zorluklarının çözülebileceği ifade ediliyor.
Microsoft’un yayımladığı araştırmaya ve demo görsellere buradan ulaşabilirsiniz.



