Нова функція

Слухай статті з Respeecher

Нова функція дозволяє слухати статті в зручному форматі завдяки технології від Respeecher. Насолоджуйтесь контентом у будь-який час – у дорозі, під час тренувань або відпочинку.

00:00 00:00

Наступні статті

Завантажується ⟳

Голос

Вибір голосу

Вибір голосу

Наступні статті

Завантажується ⟳

00:00 00:00

НОВИНИ

GPT-4o, Claude і Gemini провалили тест на увагу, який люди проходять десятиліттями

14 Червня 2026, 18:00

2 хв читання

Глібічук Марія Редакторка стрічки новин

Режим читання увімкнено

Режим читання збільшує текст, прибирає всю зайву інформацію зі сторінки і дозволяє зосередитися на матеріалі. Тут ви можете вимкнути його в будь-який момент.

Режим читання

Завершити

Дослідження команди на чолі із Сукету Пателем свідчить, що сучасні великі мовні моделі добре проходять короткі тести на увагу, але різко втрачають точність на довших дистанціях. Про це пише ScienceDaily.

Що сталося

Дослідники перевірили кілька провідних LLM класичним тестом Stroop. У ньому людині або моделі показують слова на кшталт «червоний» чи «синій», надруковані різними кольорами. Завдання просте лише на вигляд: треба назвати колір тексту, а не прочитати саме слово. Цей тест десятиліттями використовують у психології, щоб вимірювати увагу, самоконтроль і здатність не відволікатися від інструкції.

На коротких списках моделі показали сильний результат. GPT-4o мав 91% точності на списках із п’яти слів. Але далі почався різкий спад. На списках із 10 слів точність моделі впала до 57%, а на 40 — до 15%.

Claude 3.5 Sonnet тримався довше, але теж просів на довших послідовностях. На списках до 20 слів його результат залишався стабільним, однак на 40 словах точність знизилася до 24%. Схожий патерн дослідники побачили і в GPT-5, Claude Opus 4.1 та Gemini 2.5.

Чому це цікаво

Ще гірше моделі проходили змішані списки, де частина слів збігалася з кольором, а частина — ні. У таких умовах точність на конфліктних елементах у деяких випадках падала майже до нуля.

Виявилося, що під час довгих завдань ШІ просто забуває дану йому інструкцію (називати колір) і повертається до того, що вміє найкраще — просто читати текст. Штучному інтелекту не вдається ігнорувати фактори, які його відволікають, так, як це робить людський мозок.

Коли такий тест проходить людина, вона автоматично читає текст швидше, ніж називає колір. Втім, більшість людей утримує увагу навіть під час довших тестувань що і є різницею між людською увагою та тим, як працюють LLM.

Важливо, що чат-боти можуть не лише підсилювати продуктивність, а й поступово послаблювати людську цікавість — одну з базових навичок для навчання, творчості та сильних рішень.