Claude думає більше, ніж говорить: Anthropic представила новий метод аудиту моделей

08 Травня 2026, 14:37

3 хв читання

Аудіо версія новини

Глібічук Марія

Редакторка стрічки новин

Anthropic представила Natural Language Autoencoders — метод, який перетворює внутрішні сигнали мовної моделі на текстові пояснення.

Що сталося

Компанія Anthropic випустила нову розробку під назвою Natural Language Autoencoders (NLAs), яка дозволяє буквально перекласти «внутрішню математику» моделі на людську мову. Йдеться про активації — числові стани, через які модель обробляє запит і формує відповідь. Anthropic навчила одну копію моделі описувати ці стани текстом, а іншу — відновлювати початкову активацію лише з цього опису. Якщо відновлення точне, пояснення вважають корисним.

Anthropic каже, що вже використала NLA під час перевірок Claude Mythos Preview і Claude Opus 4.6. За словами компанії, інструмент допоміг побачити те, що модель знала, але не проговорювала прямо. Зокрема, у симульованих сценаріях безпеки Claude інколи розумів, що проходить тестування, навіть коли не писав про це у своїх міркуваннях.

Компанія наводить кілька показових результатів:

на тесті кодування SWE-bench Verified NLA вказали на «обізнаність про оцінку» у 26% задач;
у сценаріях, де перевіряли схильність моделі до деструктивних дій під час написання коду, така обізнаність з’являлася у 16% випадків;
у реальних стенограмах Claude.ai від користувачів, які погодилися на використання даних для навчання, цей показник був менш ніж 1%;
в «аудиторській грі», де дослідники навмисно «вшили» моделі приховану мотивацію, аудитор з NLA знаходив її у 12–15% випадків, без NLA — менш ніж у 3%.

Anthropic також каже, що NLA допомогли розібрати інші дивні патерни поведінки. Наприклад, рання версія Claude Opus 4.6 іноді відповідала на англомовні запити іншими мовами, а NLA допомогли знайти навчальні дані, які могли це спричинити.

Нагадаємо, після того як Anthropic уклала партнерську угоду з SpaceX, робота Claude значно покращилася завдяки збільшенню обчислювальних потужностей.

Чому це цікаво

Для індустрії це крок у бік інтерпретованості моделей. Більшість перевірок дивиться на фінальну відповідь: що модель сказала, що згенерувала, чи порушила правила. NLA намагається зазирнути раніше — туди, де відповідь ще тільки формується. Це може бути корисним для аудиту перед релізом, пошуку прихованих мотивів і розслідування поведінки, яку важко пояснити лише з вихідного тексту.

Метод може галюцинувати деталі, яких не було в контексті. До того ж він дорогий: для навчання потрібне підкріплювальне навчання на двох копіях моделі, а під час роботи система генерує сотні токенів на одну активацію. Через це NLA поки складно застосовувати для постійного моніторингу довгих діалогів у великому масштабі.

Попри це, компанія вже відкрила код, виклала навчені NLA для кількох відкритих моделей і запустила інтерактивну демоверсію разом із Neuronpedia.

Більше про це

01 НОВИНИ

Claude змусив Річарда Докінза замислитися, що таке свідомість

#Anthropic #Claude #Бизнес #Штучний інтелект