Kendi Başına Düşünüp Akıl Yürütebilen Yapay Zekaya Ne Kadar Yakınız?

düşünebilen ve akıl yürütebilen yapay zeka hakkında çok şey duyuyoruz. apple'ın haziran 2025 tarihli son araştırma makalesi "düşünme yanılsaması" (the illusion of thinking: understanding the strengths and limitations of reasoning models via the lens of problem complexity) bunu test ediyor.
son nesil büyük dil modelleri (large language models - llm) hakkındaki gelişmeler, yanıtlar sağlamadan önce ayrıntılı düşünme süreçleri üreten büyük akıl yürütme modellerini (large reasoning models - lrm) bize sundu. bu modeller akıl yürütme ölçütlerinde gelişmiş performans gösterse de, temel yetenekleri, ölçekleme özellikleri ve sınırlamaları yeterince anlaşılmamıştır. mevcut değerlendirmeler, esas olarak nihai yanıt doğruluğunu vurgulayarak yerleşik matematiksel ve kodlama ölçütlerine odaklanmaktadır. ancak, bu değerlendirme paradigması genellikle veri kirliliğinden muzdariptir, akıl yürütme izlerinin yapısı ve kalitesi hakkında içgörüler sağlamaz.
apple, the illusion of thinking adlı makalesinde bu durumu inceledi yapay zeka (artificial intelligence - ai) dünyasına mevcut durumu gösterdi. apple'ın bilim insanları, claude, deepseek-r1 ve o3-mini gibi ai "akıl yürütme" modellerinin (large reasoning models - lrm) aslında akıl yürütmediğini kanıtladı. sadece kalıpları çok iyi ezberliyorlar.
apple ekibi, standart matematik problemlerini kullanmak yerine dijital bir engel parkuru inşa etti
en gelişmiş akıl yürütme (reasoning) ai'larını aldılar (openai'nin o1 ve o3-mini, deepseek-r1, claude-3.7-sonnet-thinking, gemini thinking) ve klasik bulmacaları çözmelerini sağladılar:
- hanoi kulesi
- nehir geçişi (birbirine yedirmeden kayıkla karşıya kurt, kuzu, ot taşıma)
- blocks world
- checker jumping
zorluğu artırdılar ve ne olduğunu izlediler. işte 5 şok edici keşif:
1. sert bir duvara çarptılar: belirli bir karmaşıklığın ötesinde, her bir modelin doğruluğu çöktü. sadece biraz değil. sıfıra düştü.
2. zorlaştıkça daha az düşünmeye başlıyorlar: bu en sezgiye aykırı bulgu. bir bulmaca çok zorlaştığında, ai daha fazla çaba göstermez. aslında bunun hakkında düşünmek için daha az kapasite harcar. denemeye devam etme kapasitesine sahip olsa bile, esasen pes eder.
3. üç net performans alanı vardır:
kolay bulmacalar: normal büyük dil modelleri (llm'ler) aslında daha iyi ve daha verimlidir. büyük akıl yürütme modelleri (lrm'ler) sadece fazla düşünür ve zaman kaybeder.
orta bulmacalar: bu, düşünen modellerin (lrm'ler) net bir avantaja sahip olduğu optimum noktadır.
zor bulmacalar: bütün modeller başarısız olur. kaçınılmaz performans çöküşü vardır.
4. basit talimatları takip edemezler: apple, yapay zekaya bulmacayı çözmek için tam algoritmayı verdiğinde bile, yine de aynı karmaşıklık noktasında başarısız oldu. mantıksal adımları uygulamadıklarını, ancak yine de bir sonraki kelimeyi tahmin ettiklerini gösteriyor.
5. mantık yürütmeleri tutarsızdır: bir model 100'den fazla doğru hamle gerektiren bir bulmacayı çözebilir (hanoi kulesi), ancak daha sonra yalnızca 5 doğru hamle gerektiren farklı bir bulmacada başarısız olabilir (nehir geçişi). bu, genel bir akıl yürütme yeteneği değil, ezberlemeyi gösterir.
sonuç
apple'ın araştırmasına göre, bugün ai akıl yürütme (reasoning) dediğimiz şey aslında akıl yürütme değil. bu, karmaşık bir düşünme yanılsaması. bu modeller inanılmaz iyi benzer kalıpları eşleştiriciler, ancak henüz insanlarda gördüğümüz genelleştirilebilir, mantıksal problem çözme yeteneğine sahip değiller.
bu makale yapay genel zeka'ya (artificial general intelligence - agi) ulaşamayacağımız anlamına gelmiyor. sadece belki de zannettiğimizden daha uzak olduğumuz ve bu alanda daha çok çaba harcanması gerektiğini gösteriyor.
kaynak:
https://www.linkedin.com/…-7337435938190413824-es7h
https://machinelearning.apple.com/…sion-of-thinking