Grok yine zirvede: Yapay zekaların halüsinasyon oranlarında şaşırtıcı sonuçlar

OpenAI, geçtiğimiz Perşembe günü ChatGPT-5’i tanıttığında CEO Sam Altman, bu sürümün şimdiye kadar yayınladıkları en “güçlü, akıllı, hızlı, güvenilir ve sağlam” ChatGPT olduğunu vurguladı. Lansman sırasında, şirket çalışanları ayrıca ChatGPT-5’in “halüsinasyon” olarak bilinen yanlış bilgi üretme oranını azaltacağını belirtti.

Halüsinasyon nedir?

Yapay zekâ, gerçekte olmayan bilgileri gerçekmiş gibi sunduğunda bu durum “halüsinasyon” olarak adlandırılır. Büyük dil modellerinin (LLM) halüsinasyon oranları son yıllarda düşse de, hâlâ tamamen ortadan kalkmış değil. Bu da, insan gözetimi olmadan görevleri güvenle yerine getirmelerini engelleyen temel faktörlerden biri.

Vectara testleri: ChatGPT-5, GPT-4o’dan sadece %0,09 daha iyi

LLM performansını ölçen Vectara, halüsinasyon oranlarını karşılaştırmak için kendi “Hughes Halüsinasyon Değerlendirme Modeli” (HHEM) tablosunu kullandı. Sonuçlara göre:

  • ChatGPT-5: %1,4 halüsinasyon oranı

  • GPT-4: %1,8

  • GPT-4 Turbo & 4o Mini: %1,69

  • GPT-4o: %1,49

Yani ChatGPT-5, GPT-4o’dan yalnızca %0,09 oranında daha düşük halüsinasyon üretiyor. İlginç bir şekilde, ChatGPT-5’in oranı, %1,2 ile daha iyi bir performans sergileyen ChatGPT-4.5 Önizleme sürümünden biraz daha yüksek. Öte yandan, OpenAI’nin en iyi akıl yürütme modeli olan o3-mini %0,795 ile hâlâ en düşük halüsinasyon oranına sahip.

Grok’un yüksek halüsinasyon oranı ve tartışmalı “Spicy” modu

Karşılaştırmada, rakip modellerin performansı ChatGPT-5’in hâlâ önde olduğunu gösteriyor.

  • Gemini-2.5-pro: %2,6

  • Grok-4: %4,8

Özellikle Grok, halüsinasyon üretme konusunda listenin zirvesinde. XAI’nin geliştirdiği Grok, yakın zamanda “Spicy” modu ile de eleştiri topladı. Bu mod, ünlü isimler üzerinde deepfake içerikler oluşturulmasına zemin hazırlayabileceği endişesi yarattı. Şirket, sistemin çıplaklık veya cinsel içerikleri engelleyecek filtreler içerdiğini söylese de, bazı örnekler bu endişeleri güçlendirdi.

Eski modellerin kaldırılması tepki çekti

ChatGPT-5’in piyasaya sürülmesiyle birlikte OpenAI, ChatGPT-4, GPT-4o ve 4o-mini gibi sürümleri Plus kullanıcılarının erişiminden kaldırdı. Bu durum, kullanıcıların tepkisine yol açtı. Bazı Reddit kullanıcıları, “tek arkadaşını bir gecede kaybetmek” benzetmesiyle tepkilerini dile getirdi.

Sam Altman, X üzerinden yaptığı açıklamada, GPT-5’in genel olarak daha iyi olsa da GPT-4o’da sevilen bazı özelliklerin önemini hafife aldıklarını kabul etti. Şirket, bu tepkiler üzerine sınırlı bir süreliğine GPT-4o’yu Plus kullanıcılarına geri getireceğini duyurdu.

Related Posts

Dünya’nın yüzde 87’si, Eylül ayında bu muhteşem gökyüzü olayını izleyecek

Bu yılın en heyecan verici gökyüzü olaylarından biri, 7 Eylül akşamı başlayacak büyük bir tam Ay tutulması olacak. Dünya’nın geniş bir bölgesinden izlenebilecek bu olay, yaklaşık 3,5 saat sürecek.

Sağlıkta kuantum sıçraması! Bilim dünyası dönüşüyor

Kuantum bilgisayarları, sağlık sektöründe çığır açan yeniliklerle bilim dünyasını yeniden şekillendirdi. Klasik bilgisayarların çözmekte zorlandığı karmaşık problemleri ışık hızında çözebilen bu teknoloji, genetik analizlerden ilaç geliştirmeye …

Bill Gates’ten uyarı: Yapay zeka kullanmak da işsizlikten kurtarmayacak

Microsoft’un kurucusu Bill Gates, gençlere verdiği tavsiyede yapay zekayı kullanmanın hayal ettikleri kariyeri garanti etmeyeceğini vurguladı.

Yeni kan grubu bulundu: Yaşlanmıyorlar!

Belirli bir kan grubuna sahip olmanın, hücresel yaşlanmaya karşı doğal bir kalkan görevi görerek daha uzun bir yaşam süresi sunabileceği ortaya çıktı.

vivo’nun dikkat çeken telefonu X200 FE Türkiye’de satışa sunuldu. İşte fiyatı ve özellikleri!

vivo, X200 serisinin yeni modeli X200 FE’yi Türkiye’de satışa sundu. Kompakt boyutları, yüksek pil kapasitesi ve ZEISS ile geliştirilen kamera sistemiyle dikkat çekiyor.

Kuantum Bilgisayar Yatırım Yarışı Kızışıyor: 2030’da Teknoloji Devrimi Kapıda!

Teknoloji dünyasında yeni bir devrim kapıda: Kuantum bilgisayarlar. Son yıllarda hız kazanan kuantum bilişim alanındaki yatırımlar, önümüzdeki 10 yıl içinde bugünün klasik bilgisayarlarını kökten değiştirecek. Bank of America’nın son raporuna göre, 2030-2033 yılları arasında “kuantum üstünlüğü” denilen kritik dönüm noktasına ulaşılması bekleniyor. Bu, kuantum bilgisayarların klasik bilgisayarların yapamayacağı hesaplamaları yapmaya başlaması anlamına geliyor.