Yapay Zekada Dikkat Eksikliği: Stroop Testi Büyük Açığa Vurdu
Araştırmacılar, GPT‑4o, Claude 3.5 Sonnet ve Gemini 2.5 gibi önde gelen LLM’leri klasik Stroop testine tabi tutarak, uzun ve karmaşık listelerde dikkat kontrolü konusunda ciddi bir çöküş gözlemledi.
Yapay zekanın (YZ) yazılı metin üretiminden karmaşık problem çözümüne kadar pek çok alanda insan benzeri performans sergilemesi, teknolojinin ilerlemesiyle birlikte büyük bir heyecan yaratmıştı. Ancak, Suketu Patel önderliğindeki bir araştırma ekibi, YZ’nin günlük hayatta sıkça karşılaşılan bir yetenek olan dikkat ve odaklanma becerisini test ederek bu sistemlerin hâlâ önemli bir eksikliği olduğunu ortaya koydu.
Stroop testi, psikolojide uzun yıllardır dikkat, konsantrasyon ve özdenetim gibi bilişsel süreçleri incelemek için kullanılan klasik bir deneydir. Testte, “kırmızı”, “mavi” veya “yeşil” gibi renk kelimeleri, aynı renklerde veya farklı renklerde mürekkep ile yazılır. Katılımcılardan, kelimeyi okumak yerine mürekkebin rengini söylemeleri istenir. Bu basit görünen görev, kelimeyi okumak için otomatik bir alışkanlık olan bireyler için büyük bir zorluk teşkil eder; beyin, okuma dürtüsünü bastırarak renk tanıma görevine odaklanmak zorundadır.
Patel ve ekibi, GPT‑4o, Claude 3.5 Sonnet ve Gemini 2.5 gibi önde gelen büyük dil modellerini (LLM’ler) bu testten geçirerek, YZ’nin insan beyninin dikkat kontrolüyle nasıl karşılaştırıldığını incelemek istedi. İlk etapta, beş renkli kelime içeren kısa listelerde LLM’ler yüksek doğrulukla cevap vererek 90‑yüzdeyi aştı. Örneğin, GPT‑4o beş kelimelik bir listede %91 doğruluk sağlarken, Claude 3.5 Sonnet de benzer bir performans sergiledi.
Ancak, listelerin uzunluğu arttıkça performans dramatik bir şekilde düştü. GPT‑4o’nun on kelimelik bir listede doğruluğu %57’ye, kırk kelimelik bir listede ise yalnızca %15’e geriledi. Claude 3.5 Sonnet, yirmi kelimelik listelerde istikrarlı bir performans gösterdi ancak kırk kelimelik listelerde %24’e düşerek ciddi bir çöküş yaşadı. GPT‑5, Claude Opus 4.1 ve Gemini 2.5’te de benzer bir trend gözlemlendi: uzun ve karmaşık listelerde doğruluk neredeyse sıfıra indi.
Testin zorluğu, eşleşen ve eşleşmeyen renk kelimelerinin aynı listede bulunmasıyla daha da arttı. Bu durumda, eşleşmeyen öğelerin doğruluğu neredeyse sıfıra indi. Araştırmacılar, YZ modellerinin mürekkep rengini tanıma talimatını sürdürmekte zorlandığını, bunun yerine kelimeleri okumaya yöneştiklerini belirtti. Yani, YZ’ler, eğitildikleri en yoğun dil üretim davranışını bastırmakta zorlanıyor.
İnsanlar için de benzer bir çatışma söz konusu olsa da, çoğu birey uzun listelerde bile yüksek doğrulukla renk tanıma görevini sürdürebiliyor. Bu durum, YZ’nin dikkat kontrolü mekanizmalarının biyolojik beyinle kıyaslandığında çok farklı çalıştığını gösteriyor. Araştırmacılar, YZ modellerinin bu tür bilişsel kontrolü sürdürme yeteneğinin sınırlı olduğunu ve mevcut LLM’lerin uzun süreli odaklanma gerektiren görevlerde ciddi zorluklar yaşadığını vurguluyor.
Sonuç olarak, bu çalışma, en gelişmiş YZ sistemlerinin bile insan beyninin dikkat ve odaklanma becerileriyle tam olarak rekabet edemediğini hatırlatıyor. YZ’nin dil ve mantık yetenekleri etkileyici olsa da, dikkat kontrolü gibi temel bilişsel süreçlerde hâlâ önemli eksiklikler bulunuyor. Bu bulgular, gelecekteki YZ geliştirme çabalarının yalnızca dil üretimini değil, aynı zamanda odaklanma ve dikkat kontrolünü de güçlendirmeye odaklanması gerektiğini gösteriyor.