ABD’den araştırmacılar; Google, OpenAI, Anthropic şeklinde şirketlerin yapay zekâ modellerini Super Mario Bros. ile kontrol etmeye başladı. İşte sonuçlar.
Yapay zekâ modelleri her geçen gün oldukça daha iyi hâle geliyor. Doğal ki her teknolojide olduğu şeklinde yapay zekânın da piyasaya sürülmeden ilkin ve sonrasında kontrol edilmesi gerekiyor. Bu testlerde oyunların kullanıldığını görmüştük. Mesela Anthropic’in Claude modeli, geçen hafta Pokemon’da denenmişti.
Şimdi ise ABD’de bulunan Kaliforniya Üniversitesi San Diego’dan Hao AI Lab isminde organizasyondan araştırmacılar, yepyeni bir oyunla yapay zekâyı kontrol etmeye başladı. Bu oyun, ikonik yapım Super Mario Bros. olarak karşımıza çıktı.
Claude 3.7 en iyi performansı verdi, GPT-4o sınıfta kaldı
Testlerde Super Mario Bros. kullanılarak birçok değişik yapay zekâ modelinin benchmark testleri gerçekleştirildi. Bunlar içinde OpenAI’ın ChatGPT’ye güç veren GPT-4o’su, Anthropic’in Claude 3.7 ve 3.5 modelleri ve Google’ın Gemini 1.5 Pro’su vardı.
Sonuçlarda, en iyi performansı Claude 3.7’nin verdiği görüldü. Onu Claude 3.5 ve Gemini 1.5 Pro takip etti. GPT-4o ise zorlanarak aralarında en fena performansı gösteren dil modeli oldu.
Kullanılan Super Mario Bros. 1985’teki orijinalinden birazcık daha farklıydı. Testler için emülatörden yararlanıldı. Ek olarak GamingAgent adı verilen bir framework ile entegre çalıştı. Bu, oyunun yapay zekâ modelleri tarafınca denetim edilmesini sağlamış oldu.
Oyunda her bir modelin iyi mi tepkiler vereceği, karışık manevraları öğrenmeleri, oyun stratejileri geliştirmeleri şeklinde şeyler kontrol edildi. Daha da garip olanı ise OpenAI’ın mantık yürüten o1 modelinin GPT-4o şeklinde mantık yürüten kategorisine sokulmayan modellerden daha fena performans göstermesiydi.
Bu biçim modeller, problemleri adım adım düşünüp çözmeleriyle genel anlamda öteki modellere kıyasla daha iyi performans gösteriyordu sadece Super Mario Bros.’ta bu olmadı. Bunun sebebi muhtemelen mantık modellerinin eylemleri için birazcık süreye ihtiyacı olması ve düşünmesi. Bu yüzden düzgüsel dil modelleri şeklinde gerçek zamanlı olarak süratli aksiyon alamıyorlar.



