Mercor adlı bir şirket, yapay zekânın informasyon gerektiren ofis işlerinde insan yerine geçip geçemeyeceğini kontrol etti. Sanılanın aksine yapay zekâ modellerinin hâlâ oldukça geride olduğu görüldü.
Her geçen gün daha da gelişmiş hâle gelen yapay zekâ teknolojilerinin ilerleyen dönemde birçok insanoğlunun işini elinden alacağı konuşuluyordu. Günümüzde bilhassa informasyon gerektiren işlerde hâlâ insan gücünün öne çıktığını görüyoruz. Peki birkaç yıl içinde bu değişip ofislerde yapay zekâ mı kullanılacak?
Veri şirketi Mercor tarafınca piyasaya sürülen yeni bir araştırma, yapay zekâ için kullanılan tüm “mantık yürütme” yada “planlama” şeklinde özelliklere karşın hâlâ bu değişen teknolojinin insan yerine geçmesinin mümkün olmadığını gösterdi.
Yapay zekâ hâlâ hakkaten işlerin karmaşıklığıyla başa çıkacak seviyede değil
Mercor, APEX-Agenst adlı bir karşılaştırma testi yayımladı. Yapay zekâdan şiir yazmasını yada matematik problemi çözmesini isteyen alışılagelmiş testlerin aksine bu testte avukatlar, danışmanlar ve bankacılardan gelen gerçek sorular kullanıldı. Modellerden, değişik informasyon türleri içinde geçiş yapmayı gerektiren, oldukça adımlı, eksiksiz görevler gerçekleştirmeleri istendi.
Sonuçlar ise şaşırtıcıydı. Gemini 3 Flash’ten GPT-5.2’ye kadar piyasadaki en iyi modeller bile testte** %25 doğruluk oranını aşamadı**. En öne çıkan model, %24 oran yakalayan Google modeli Gemini oldu. GPT-5.2, %23 ile onu takip etti. Öteki modellerde ise averaj %10 civarı başarı oranı yakalandı.
Mercor yetkilileri, yaptıkları açıklamada gerçek dünyada cevapların altın tepside sunulmadığını, yapay zekânın bu biçim mevzularda hâlâ kafi seviyede olmadığını söylüyor. Şu demek oluyor ki gerçek dünyadaki işlerin karmaşıklığıyla başa çıkacak seviyede değiller. Bir avukatın bir suali yanıtlamak için iş ortamındaki yazışmaları okuması, ilgili belgeleri incelemesi, tecrübelerini kullanımı ve peşinden tüm bu detayları sentezlemesi gerekiyor. Sadece yapay zekâ bunu yapamıyor.
İnsanlar bağlam değişiklik yapma işini kolayca yapabiliyorlar sadece yapay zekâ bu mevzuda iyi değil. Modelleri dağınık kaynaklardan informasyon aramaya zorladığınızda ya kafaları karışıyor ya yanlış yanıt veriyorlar ya da tamamen pes ediyorlar. Bu yüzden bazı işlerde insanların yerine geçmeleri için hâlâ erken bulunduğunu söyleyebiliriz.

