Yapay Zekâ Firmaları İnternetten Veri Toplamaya Devam Ediyor
Yapay zekâ firmalarının, robots.txt olarak da malum yönergeleri atlamış olduğu ortaya çıktı.
Yapay zekânın yükselişi ile beraber bu alana giren firmalar, kendi araçlarını geliştirmek için fazlaca büyük oranda verilere gerekseme duyuyorlar. Bu verileri bulmak için akla gelen ilk alternatif ise normal olarak ki web oluyor. Öte taraftan internetteki her veri, her yazı yapay zekâ eğitmekte kullanılamıyor. İnternet siteleri, kendilerinden verilerin alınıp alınamayacağını robots.txt adlı bir dosya ile belirtiyor.
Reuters’ın haberine nazaran fazlaca sayıda yapay zekâ geliştiricisi bu dosyada yer edinen yönlendirmeleri aşmayı tercih ediyor ve bu sitelerden de veriler topluyorlar. Bilhassa kendisini “parasız yapay zekâ arama motoru” olarak tanıtan Perplexity bu mevzuda tepkileri en fazlaca üstüne çeken firmalardan biri olsa da bu uygulamada yalnız değil.
OpenAI, Anthropic…
Gelen raporlara nazaran pek fazlaca yapay zekâ geliştiricisi robots.txt dosyalarını pas geçerek sitelerden içerik almaya devam ediyor. Raporda isim verilmese de bu firmalar içinde OpenAI ve Anthropic’in de yer almış olduğu öğrenildi. Perplexity tarafınca kullanılan bir sunucunun da bu yönergeleri takip etmediği ortaya çıktı. Perplexity CEO’su Aravind Srinivas daha ilkin yapmış olduğu açıklamada ise firmanın “ilkin protokolü pas geçip sonradan da bu mevzuda yalan söyleme durumunun olmadığını” söylemişti.
Öte taraftan robots.txt protokolü 1990’lı senelerden beri kullanılıyor ve aslen yasal bir bağlayıcılığı yok. Kim bilir bu mevzuda daha sıkı ve daha detaylı yeni bir protokol oluşturmak probleminin çözümüne katkıda bulunacaktır.



