OpenAI, Bazı İşlerde İnsan ve Suni Zekâ Performansını Kıyasladı: Bazı Sektörler Risk Altında!

OpenAI tarafınca geliştirilen GDPval adlı karşılaştırma testi, suni zekâ modellerini gerçek meslek görevlerinde insanlarla kıyaslıyor. İlk sonuçlara bakılırsa suni zekâ, bazı sektörlerde insanları yakalamaya başladı. Bazı görevlerde ise geçti.
Suni zekâ sektörünün öncü isimlerinden OpenAI, suni zekâ modellerini gerçek dünyadaki mesleklerle kıyaslamak için GDPval adını verdiği yeni bir değerlendirme sistemi geliştirdi. Bu sistem, yazılım mühendisliğinden pazarlamaya kadar değişik alanlarda görevleri kontrol ederek suni zekânın insan uzmanlarla ne kadar rekabet edebildiğini ortaya koyuyor.
OpenAI’ın yayımladığı yazı, GDPval ile meydana gelen ilk testlerin oldukça çarpıcı bulunduğunu gözler önüne seriyor. Bu sebeple elde edilmiş sonuçlara bakılırsa suni zekâ teknolojileri, bazı sektörlerde insanlara yetişti. Bazılarında ise insanların geride kalmaya başladığını görüyoruz.
Sonuçlara geçmeden ilkin: GDPval nedir ve iyi mi çalışıyor?
GDPval, adını Gayri Safi Yurtiçi Hasıla (GDP) kavramından alıyor ve temel amacı, suni zekâ modellerinin ekonomik kıymeti olan görevlerdeki performansını ölçmek. Sistem, değişik sektörlerden seçilen 44 meslek ve toplam 1.320 vazife üstüne kurulmuş durumda. Hâl bu şekilde olunca GDPval için oldukça kapsamlı bir emek harcama diyebiliriz.
Kontrol, modellerin ürettiği çıktılar aynı meslekten deneyimli uzmanların işleriyle karşılaştırılıyor. Uzman hakemler de elde edilmiş bulguları daha iyi, eşit ya da daha fena şeklinde puanlıyor. Böylece modellerin yalnızca kuramsal değil, gerçek iş dünyasında da insan performansına ne kadar yaklaştığı ölçülmüş oluyor.
Gelelim sonuçlara: Suni zekâ hangi alanlarda insanlara yetişti yada geçti?

GDPval erken sonuçlarına bakılırsa suni zekâ bilhassa yazılım mühendisliği, iş analizi ve pazarlama içerikleri şeklinde alanlarda dikkat çekici bir performans sergiledi. Kod hatalarının tespiti, yazılım planlaması yada rapor hazırlama şeklinde teknik görevlerde insan mühendislerle neredeyse aynı seviyede sonuçlar verdi.
Ek olarak pazarlama metinleri, sunum slaytları yada satın alan yazışma senaryolarında bir çok süre insanoğlunun ürettiği içeriklerle yarıştı. Bazı örneklerde daha süratli ve uygun maliyetli çıktılar sundu. Bu durum, suni zekânın yalnızca hız değil, kalite açısından da rekabetçi bir seviyeye ulaşmış olduğu olarak yorumlandı.

Sadece suni zekâ, tehlikeli sonuç alanlarda hâlâ itimat vermiyor. Bilhassa tıp ve sıhhat hizmetleri, insan yaşamını direkt etkilediği için yüksek duyarlılık gerektiriyor. Suni zekânın burada yapmış olduğu en küçük hata bile ciddi sonuçlar doğurabileceğinden, modellerin bağımsız olarak kullanılmaları mümkün değil.
Öte taraftan, mühendislikte güvenlik odaklı işler ya da yüksek riskli hukuki kararlar şeklinde alanlarda da suni zekâ hâlâ geri planda. GDPval testleri, bu görevlerde insan uzmanların fazlaca daha tutarlı, güvenilir ve bağlama uygun çıktılar üretebildiğini ortaya koyuyor.

GDPval, suni zekânın yalnızca laboratuvar ortamında değil, gerçek dünyada da insan performansına yaklaşmaya başladığını ortaya koydu. Sadece bu demek olmuyor ki suni zekâ, fazlaca yakında insanları işi olmayan bırakacak. Bilhassa de sıhhat, hukuk ve güvenlik tehlikeli sonuç işler söz mevzusu olduğunda insanoğlu, iş dünyası için olmazsa olmaz.




