Yapay zekâ modellerinin performansını ölçmeye yarayan yeni bir kontrol geliştirildi. “Humanity’s Last Exam” adlı kontrol, en iyi yapay zekâ modellerini bile zorluyor.
Yapay zekâ modellerine yönelik yeni bir performans testi oluşturuldu. Yapay zekâ sektörünün kâr amacı gütmeyen kuruluşlarından Center for AI Safety (CAIS) ile Scale AI adlı şirket tarafınca geliştirilen bu performans testi, en iyi yapay zekâ modellerini bile zorlayan türden.
“Humanity’s Last Exam” olarak isimlendirilen yeni performans testi, pek fazlaca kategoride zorlayıcı sorulara ev sahipliği yapıyor. Meydana getirilen açıklamalara bakılırsa bu testte matematik, beşeri bilimler ve tabiat bilimleri şeklinde onlarca mevzuda, 3.000 civarı soru bulunuyor. Geliştiriciler, testin hakikaten belirleyici olması için grafikler, diyagramlar ve görseller kullanmayı da dikkatsizlik etmediler.
En iyi yapay zekâ modeli bile tüm soruları çözemiyor
Humanity’s Last Exam, hakikaten zorlayıcı bir performans testi olacak şeklinde görünüyor. Zira meydana getirilen çalışmalara bakılırsa piyasadaki amiral gemisi yapay zekâ modelleri, bu performans testinde yüzde 100 başarıya ulaşamadılar. Hatta 2021 senesinde piyasaya çıkan matematik odaklı testlerde erken aşamadaki yapay zekâ modelleri, 100 üstünden 10 puan bile alamamışlardı.
Humanity’s Last Exam’in ortaya çıkarılması için 50’den fazla ülkede 1.000 kadar kişiden destek alındı. Projeye destek olan adlar araştırmacılar ve profesörlerden oluşuyordu. Hâl bu şekilde olunca bu performans testi, gelecekte sektör için mühim bir ölçek olabilir şeklinde görünüyor. Bu testte sorulan bazı örnek soruları incelemek isterseniz buradaki bağlantıyı kullanabilirsiniz.



