НОВИНИ

Claude думає більше, ніж говорить: Anthropic представила новий метод аудиту моделей

Аудіо версія новини

Слухати

Anthropic представила Natural Language Autoencoders — метод, який перетворює внутрішні сигнали мовної моделі на текстові пояснення.

Що сталося

Компанія Anthropic випустила нову розробку під назвою Natural Language Autoencoders (NLAs), яка дозволяє буквально перекласти «внутрішню математику» моделі на людську мову. Йдеться про активації — числові стани, через які модель обробляє запит і формує відповідь. Anthropic навчила одну копію моделі описувати ці стани текстом, а іншу — відновлювати початкову активацію лише з цього опису. Якщо відновлення точне, пояснення вважають корисним.

Anthropic каже, що вже використала NLA під час перевірок Claude Mythos Preview і Claude Opus 4.6. За словами компанії, інструмент допоміг побачити те, що модель знала, але не проговорювала прямо. Зокрема, у симульованих сценаріях безпеки Claude інколи розумів, що проходить тестування, навіть коли не писав про це у своїх міркуваннях.

Компанія наводить кілька показових результатів:

  • на тесті кодування SWE-bench Verified NLA вказали на «обізнаність про оцінку» у 26% задач;
  • у сценаріях, де перевіряли схильність моделі до деструктивних дій під час написання коду, така обізнаність з’являлася у 16% випадків;
  • у реальних стенограмах Claude.ai від користувачів, які погодилися на використання даних для навчання, цей показник був менш ніж 1%;
  • в «аудиторській грі», де дослідники навмисно «вшили» моделі приховану мотивацію, аудитор з NLA знаходив її у 12–15% випадків, без NLA — менш ніж у 3%.

Anthropic також каже, що NLA допомогли розібрати інші дивні патерни поведінки. Наприклад, рання версія Claude Opus 4.6 іноді відповідала на англомовні запити іншими мовами, а NLA допомогли знайти навчальні дані, які могли це спричинити.

Нагадаємо, після того як Anthropic уклала партнерську угоду з SpaceX, робота Claude значно покращилася завдяки збільшенню обчислювальних потужностей.

Чому це цікаво

Для індустрії це крок у бік інтерпретованості моделей. Більшість перевірок дивиться на фінальну відповідь: що модель сказала, що згенерувала, чи порушила правила. NLA намагається зазирнути раніше — туди, де відповідь ще тільки формується. Це може бути корисним для аудиту перед релізом, пошуку прихованих мотивів і розслідування поведінки, яку важко пояснити лише з вихідного тексту.

Метод може галюцинувати деталі, яких не було в контексті. До того ж він дорогий: для навчання потрібне підкріплювальне навчання на двох копіях моделі, а під час роботи система генерує сотні токенів на одну активацію. Через це NLA поки складно застосовувати для постійного моніторингу довгих діалогів у великому масштабі.

Попри це, компанія вже відкрила код, виклала навчені NLA для кількох відкритих моделей і запустила інтерактивну демоверсію разом із Neuronpedia. 

ЧИТАЙТЕ ТАКОЖ

НОВИНИ
6 фільмів про Київ — добірка до Дня міста

30 Травня 2026, 09:00

НОВИНИ
СЕО OpenAI назвав сфери, де людський контакт поки сильніший за ШІ

29 Травня 2026, 19:20

Борщ
Бігові кросівки, які не можна купити, дармовис із 3D-друку дронів і адаптивний одяг для ветеранів. Що робили українські бренди разом у травні

29 Травня 2026, 19:00

НОВИНИ
Роналду, Мессі, Джеймс: хто увійшов до рейтингу Forbes із доходом понад $100 млн

29 Травня 2026, 18:34

НОВИНИ
Google пом’якшила ліміти Gemini: складні запити більше не з’їдатимуть увесь ліміт

29 Травня 2026, 16:28

НОВИНИ
YouTube зробила подкасти зручнішими для прослуховування в русі

29 Травня 2026, 14:59

БІЗНЕС
Що реально утримує людей в ІT-компаніях: досвід SharksCode

29 Травня 2026, 14:00

НОВИНИ
Dell різко підвищила прогноз через AI-сервери Nvidia — акції стрибнули на 40%

29 Травня 2026, 13:08

НОВИНИ
В Європі під час рейду вилучили 800 серверів для російських кібератак

29 Травня 2026, 12:14

НОВИНИ
Головний космічний проєкт Безоса вибухнув ще до старту — відео

29 Травня 2026, 11:20