НОВИНИ

Claude думає більше, ніж говорить: Anthropic представила новий метод аудиту моделей

Аудіо версія новини

Слухати

Anthropic представила Natural Language Autoencoders — метод, який перетворює внутрішні сигнали мовної моделі на текстові пояснення.

Що сталося

Компанія Anthropic випустила нову розробку під назвою Natural Language Autoencoders (NLAs), яка дозволяє буквально перекласти «внутрішню математику» моделі на людську мову. Йдеться про активації — числові стани, через які модель обробляє запит і формує відповідь. Anthropic навчила одну копію моделі описувати ці стани текстом, а іншу — відновлювати початкову активацію лише з цього опису. Якщо відновлення точне, пояснення вважають корисним.

Anthropic каже, що вже використала NLA під час перевірок Claude Mythos Preview і Claude Opus 4.6. За словами компанії, інструмент допоміг побачити те, що модель знала, але не проговорювала прямо. Зокрема, у симульованих сценаріях безпеки Claude інколи розумів, що проходить тестування, навіть коли не писав про це у своїх міркуваннях.

Компанія наводить кілька показових результатів:

  • на тесті кодування SWE-bench Verified NLA вказали на «обізнаність про оцінку» у 26% задач;
  • у сценаріях, де перевіряли схильність моделі до деструктивних дій під час написання коду, така обізнаність з’являлася у 16% випадків;
  • у реальних стенограмах Claude.ai від користувачів, які погодилися на використання даних для навчання, цей показник був менш ніж 1%;
  • в «аудиторській грі», де дослідники навмисно «вшили» моделі приховану мотивацію, аудитор з NLA знаходив її у 12–15% випадків, без NLA — менш ніж у 3%.

Anthropic також каже, що NLA допомогли розібрати інші дивні патерни поведінки. Наприклад, рання версія Claude Opus 4.6 іноді відповідала на англомовні запити іншими мовами, а NLA допомогли знайти навчальні дані, які могли це спричинити.

Нагадаємо, після того як Anthropic уклала партнерську угоду з SpaceX, робота Claude значно покращилася завдяки збільшенню обчислювальних потужностей.

Чому це цікаво

Для індустрії це крок у бік інтерпретованості моделей. Більшість перевірок дивиться на фінальну відповідь: що модель сказала, що згенерувала, чи порушила правила. NLA намагається зазирнути раніше — туди, де відповідь ще тільки формується. Це може бути корисним для аудиту перед релізом, пошуку прихованих мотивів і розслідування поведінки, яку важко пояснити лише з вихідного тексту.

Метод може галюцинувати деталі, яких не було в контексті. До того ж він дорогий: для навчання потрібне підкріплювальне навчання на двох копіях моделі, а під час роботи система генерує сотні токенів на одну активацію. Через це NLA поки складно застосовувати для постійного моніторингу довгих діалогів у великому масштабі.

Попри це, компанія вже відкрила код, виклала навчені NLA для кількох відкритих моделей і запустила інтерактивну демоверсію разом із Neuronpedia. 

ЧИТАЙТЕ ТАКОЖ

НОВИНИ
Hornet над Маріуполем: що відомо про дрони, якими «Азов» б’є по тилу окупантів

08 Травня 2026, 15:15

НОВИНИ
144 049 авто під відкликання: Mercedes-Benz оновить ПЗ через ризик «чорного» екрана

08 Травня 2026, 13:42

НОВИНИ
Марк Андріссен показав свій промпт для ШІ і отримав хвилю критики

08 Травня 2026, 12:31

НОВИНИ
Google дозволить кандидатам користуватися Gemini на технічних співбесідах

08 Травня 2026, 11:09

НОВИНИ
70 мов на вході й 13 на виході: OpenAI оновив голосовий стек для розробників

08 Травня 2026, 10:03

БІЗНЕС
Профайл Гаррі Селфріджа. Людина, яка 100 років тому перетворила ТРЦ на шоу-бізнес, а потім померла у боргах

08 Травня 2026, 08:34

НОВИНИ
Boosta запустила SEO-спринт для джунів із оплатою та шансом на офер

07 Травня 2026, 19:04

Борщ
Пиво до книжки, квадратна паска і 1,5 млн грн на регіональну журналістику. Що робили українські бренди разом у квітні

07 Травня 2026, 19:00

НОВИНИ
HIMERA запустила виробництво нових ретрансляторів R1 — фото

07 Травня 2026, 18:02

НОВИНИ
Ціни на хліб та паливо зростають: що подорожчало в Україні у квітні 2026-го

07 Травня 2026, 17:17