OpenAI, ChatGPT’nin Artık Her Yalan Söylediğinde İtiraf Edeceğini Açıkladı (Siz Gene de Her Söylediğine İnanmayın)

OpenAI yayınladığı yeni blogunda ChatGPT’nin yakında her yanıtının peşinden kendi yanıtını çözümleme edip yalan söyleyip söylemediğini belirteceğini açıkladı.
OpenAI, suni zekâ modellerinin şeffaflığını ve dürüstlüğünü çoğaltmak amacıyla “itiraf” adını verdiği yeni bir yöntemi kontrol ettiğini duyurdu. Bu yeni yaklaşıma gore ChatGPT, kullanıcıya sunmuş olduğu ana yanıtın derhal peşinden, arka planda ayrı bir rapor oluşturuyor. Bu rapor, modelin yanıtı oluştururken herhangi bir kuralı ihlal edip etmediğini, kestirme yollara başvurup başvurmadığını ve talimatları tam olarak yerine getirip getirmediğini kendi ağzından açıklamasını sağlıyor.
Şu anda mevcut suni zekâ modelleri, kimi zaman kullanıcıyı memnun etmek yada en iyi sonucu vermiş şeklinde görünmek için “halüsinasyon” görebiliyor ya da gerçekleri çarpıtabiliyor. OpenAI’ın geliştirdiği bu yöntemde ise modelin ana yanıtı ne kadar hatalı yada yanıltıcı olursa olsun, itiraf kısmında dürüst davranması ek olarak ödüllendiriliyor. Şu demek oluyor ki model, kullanıcıya sunmuş olduğu metinde halüsinasyon görmüş olsa bile itiraf raporunda “Burada kuralları esnettim” yada “Bu bilgiden güvenilir değilim” diyerek durumu açık açık itiraf ediyor.
“Bir tür doğruluk serumu”
Bu sistem, modellerin eğitimi esnasında bir tür “doğruluk serumu” işlevi görüyor. Meydana getirilen testlerde, OpenAI araştırmacıları modelin ana cevabının doğruluk, yoldam ve güvenlik şeklinde birçok karmaşık kritere gore değerlendirildiğini sadece itiraf kısmının bir tek ve bir tek “dürüstlüğe” odaklandığını belirtiyor. GPT-5 Thinking şeklinde gelişmiş modeller üstünde meydana getirilen denemelerde, suni zekânın talimatlara uymadığı ve halüsinasyon görmüş olduğu durumların %95’inden fazlasında, bu durumu itiraf raporunda açıkça kabul etmiş olduğu gözlemlendi.
OpenAI, bu yöntemin suni zekânın yalan söylemesini tamamen engellemediğini, bir tek bu yalanların tespit edilmesini kolaylaştırdığını vurguluyor. Sistem hemen hemen bir “kavram kanıtı” aşamasında ve modelin hakikaten kafasının karıştığı durumlarda itirafların da hatalı olma ihtimali bulunuyor. Bundan dolayı bu yeni özellik sonrasında suni zekâ kendi hatasını itiraf etme kabiliyeti kazansa bile, sunmuş olduğu bilgilerin doğruluğunu teyit etmek ve her söylediğine körü körüne inanmamak hâlâ kullananların sorumluluğunda.
Peki siz bu mevzu hakkında ne düşünüyorsunuz? Düşüncelerinizi aşağıdaki yorumlar kısmından bizimle paylaşabilirsiniz.



