OpenAI’ın Yeni Suni Zekâ Modelleri, Eski Modellere Kıyasla Daha Fazla ’Halüsinasyon’ Görüyor (Kullanırken İki Kez Denetim Edin)

Aralık 14, 2025

4

OpenAI’ın geçtiğimiz günlerde kullanıma açmış olduğu o3 ve o4-mini’nin eski modellere kıyasla daha çok yanıltıcı data sunmuş olduğu ortaya çıkarıldı.

OpenAI’ın kısa süre ilkin tanıttığı yeni suni zekâ modelleri o3 ve o4-mini her ne kadar özellikleri ile beğenilmiş olsalar da eski modellerdeki can can sıkan bir sorunla geldi.

Ortaya çıkan detaylara nazaran bu iki yeni modelin gerçek dışı bilgiler üretme eğilimi, önceki modellere kıyasla artmış durumda. OpenAI’ın kendi testlerine nazaran bu yeni modeller, hem eski “akıl yürütme” modelleri olan o1, o1-mini ve o3-mini’den hem de GPT-4o benzer biçimde daha geleneksel modellerden daha çok ‘halüsinasyon’ görüyor.

Daha da dikkat çekici olan ise bu artışın sebebinin hemen hemen tam olarak anlaşılamamış olması. OpenAI yayınladığı teknik raporda bu probleminin çözümü için daha çok araştırmaya gereksinim duyduklarını kabul etmiş durumda.

Teknik veriler neler söylüyor?

OpenAI’ın şirket içi testlerine nazaran o3 modeli, insanlarla ilgili detayları değerlendiren PersonQA testinde soruların %33’ünde halüsinasyon görmüş oldu. Bu oran, o1 ve o3-mini’nin sırasıyla %16 ve %14,8 olan halüsinasyon oranlarının neredeyse iki katı. O4-mini ise bu alanda %48 ile daha da fena bir performans sergiledi.

Üçüncü parti testlerde de benzer sonuçlar ortaya çıktı. Bağımsız araştırma laboratuvarı Transluce, o3 modelinin yanıt verirken tamamen gerçek dışı işlem adımları uydurma eğiliminde bulunduğunu ortaya koydu.

Transluce’un kurucularından ve eski OpenAI çalışanı Neil Chowdhury’ye nazaran bu durumun sebebi modellerin eğitiminde kullanılan yöntemler olabilir sadece net bir sebebe dayandırmak şu aşamada güç.

Gücüne kuşku yok, peki ya güvenine?

o3 modeli her ne kadar bazı görevlerde, bilhassa de kodlama ve matematikte başarıya ulaşmış sonuçlar verse de sık sık hatalı sonuçlar üretmesi ya da gerçekte olmayan kaynaklar sunması benzer biçimde ciddi sorunlara haiz.

Öte taraftan mevcut hâliyle GPT-4o, OpenAI’ın SimpleQA testinde %90 doğruluk oranı yakalayarak hâlâ kuvvetli bir alternatif.

ChatGPT ile ilgili öteki içeriklerimiz:

Şimdilik OpenAI cephesinden mevzuya dair izahat ve iyileştirmeler gelmesini beklemekten başka yapabileceğimiz bir şey yok sadece iki yeni model o3 ve o4-mini’yi kullanıyorsanız, çıktılarınıza körü körüne inanmamanızı ve dikkatle denetim etmenizi tavsiye ediyoruz.

Önceki İçerik

Moondrops Crypto Screener v1.342 [Premium+] APK Free Download

Sonraki İçerik

Battlefield 6’nın Ultra++ Sistem Gereksinimleri Açıklandı

CEVAP VER İptal

Lütfen yorumunuzu giriniz!

Lütfen isminizi buraya giriniz

Yanlış bir e-posta adresi girdiniz!

Lütfen e-posta adresinizi buraya girin

OpenAI’ın Yeni Suni Zekâ Modelleri, Eski Modellere Kıyasla Daha Fazla ’Halüsinasyon’ Görüyor (Kullanırken İki Kez Denetim Edin)

OpenAI’ın geçtiğimiz günlerde kullanıma açmış olduğu o3 ve o4-mini’nin eski modellere kıyasla daha çok yanıltıcı data sunmuş olduğu ortaya çıkarıldı.

Teknik veriler neler söylüyor?

Gücüne kuşku yok, peki ya güvenine?

Çin’den ”Yapay Zekâ İşimizi Elimizden Alacak” Gerçeğine Karşı Köktencilik Hamle: ”Hepimiz kendi AI şirketini kursun”

Google, “Kişisel Zekâ” Hususi durumunu Kullanıma Sunmaya Başladı: Peki Tam Olarak Ne İşe Yarıyor?

ChatGPT Artık “Her Şeyi Konuşabildiğiniz” Uygulama Olmayacak

CEVAP VER İptal

Most Popular

“Bu Otomobilleri Kim Alıyor?” Dedirten Izahat: Şaşırtan Fiyatlara Karşın Talep Yüksek

Uygun Fiyatlı Yenilenmiş Ürün Platformu: Gene Yeni Cep!

The Last Days of American Crime Filmi Münakaşa Yarattı

Hyperjam Game Hackathon, 18 Mart’ta Başlıyor

Recent Comments

EDITOR PICKS

“Bu Otomobilleri Kim Alıyor?” Dedirten Izahat: Şaşırtan Fiyatlara Karşın Talep Yüksek

Uygun Fiyatlı Yenilenmiş Ürün Platformu: Gene Yeni Cep!

The Last Days of American Crime Filmi Münakaşa Yarattı

POPULAR POSTS

“Bu Otomobilleri Kim Alıyor?” Dedirten Izahat: Şaşırtan Fiyatlara Karşın Talep Yüksek

Uygun Fiyatlı Yenilenmiş Ürün Platformu: Gene Yeni Cep!

The Last Days of American Crime Filmi Münakaşa Yarattı

POPULAR CATEGORY

ABOUT US

FOLLOW US