Araştırmacılar, GPT‑4o, Claude 3.5 Sonnet ve Gemini 2.5 gibi önde gelen LLM’leri klasik Stroop testine tabi tutarak, uzun ve karmaşık listelerde dikkat kontrolü konusunda ciddi bir çöküş gözlemledi.