Metinden Video Üreten Yapay Zekâ: Stable Video Diffusion
Stability AI, metinlerden video üretmeye yarayan yapay zekâ modeli “Stable Video Diffusion”ı duyurdu. Şirket, bu yapay zekâ modelini bazı sektörler için tasarladı.
Tıpkı OpenAI şeklinde yapay zekâ destekli teknolojiler üreten firmaların başlangıcında gelen Stability AI, bugün oldukca mühim bir duyuru gerçekleştirmiş oldu. Bu duyuruda, firmanın yeni yapay zekâ modeli “Stable Video Diffusion” tanıtıldı. Firmanın metinden görsel üretmeye yarayan yapay zekâ modeli “Stable Diffusion” üstüne inşa edilen yeni model, metinleri ilkin görüntülere, peşinden da videolara dönüştürüyor.
Stable Video Diffusion, hemen hemen erken aşamada olan bir yapay zekâ modeli. Hâl bu şekilde olunca her insanın kullanımına açık değil. Sadece Stability AI’ın talihli bireysel ve ticari lisans sahibi kullanıcıları, firmanın yeni yapay zekâ modelini şimdiden deneyebiliyorlar. Ayrıca; Stable Video Diffusion için paylaşılan örnekler, değişen teknolojinin {hiç de} kötü olmadığını gözler önüne seriyor.
İşte Stable Video Diffusion ile üretilen bazı örnek videolar:
Stability AI tarafınca meydana getirilen açıklamalara nazaran yeni yapay zekâ modeli, SVD ve SVD-XT şeklinde iki değişik çıktı formatı üretebiliyor. SVD formatı, 14 kareyi 576×1024 px çözünürlükte video hâline getiriyor. SVD-XT ise bir içerik için 24 kare kullanabiliyor. Her iki formatta da 3 ila 30 fps içinde görüntü alınabiliyor.
Stable Video Diffusion, milyonlarca videonun eğitim için kullanıldığı bir model. Şirket, bu şekilde devasa bir veri seti ile eğittiği modeli, ikinci aşamada ortalama bir milyon video kullanarak yine eğitti. İkinci eğitim, Stable Video Diffusion tarafınca üretilen görüntülere ince ayar yapılmasını sağlamış oldu. Sadece şirket, veri setlerinde kullandığı videoları nereden temin ettiğine ilişkin bir izahat yapmadı. Aslen şirket, eğitim verilerinin telifsiz ve kamuya açık veri tabanlarından alındığını söylüyor sadece bunun iyi mi yapıldığını bilen yok.
Stability AI’ın açıklamasına nazaran yeni yapay zekâ modeli, aslen ticari kullanım için tasarlandı. Şirket, geliştirdiği değişen teknolojinin reklamcılık, eğitim ve eğlence şeklinde bazı sektörlerde işleri kolaylaştıracağını söylüyor. Sadece bunun bireysel açıdan kullanımının yol açabileceği bazı problemler bulunduğunu atlamamak gerek. Neticede deepfake teknolojisinin neticelerini tamamımız biliyoruz…
İşte Stable Video Diffusion, bireysel kullanım risklerini ortadan kaldırmak için bazı engellemeler içeriyor. Meydana getirilen açıklamalara nazaran bu yapay zekâ modeli, tekrardan düzenlemeye izin vermiyor. Ek olarak bir kişinin yüzü, metindekiyle uyumlu olmayabiliyor. Tüm bunlara ek olarak yeni yapay zekâ modeli, büyük oranda hareketsiz yada yavaş kamera efektleri içeren görüntüler de üretmiyor. Ekibin bu yöntemlerle tüketicileri koruyup koruyamayacakları şimdilik belirsiz.



