preview preview
Нова функція

Слухай статті з Respeecher

Нова функція дозволяє слухати статті в зручному форматі завдяки технології від Respeecher. Насолоджуйтесь контентом у будь-який час – у дорозі, під час тренувань або відпочинку.
preview
00:00 00:00
Наступні статті
    Завантажується
    Голос
    Вибір голосу
      player background
      Вибір голосу
        Наступні статті
          Завантажується
          00:00 00:00
          НОВИНИ

          Claude думає більше, ніж говорить: Anthropic представила новий метод аудиту моделей

          08 Травня 2026, 14:37
          3 хв читання
          Глібічук Марія Редакторка стрічки новин
          Режим читання збільшує текст, прибирає всю зайву інформацію зі сторінки і дозволяє зосередитися на матеріалі. Тут ви можете вимкнути його в будь-який момент.
          Режим читання

          Режим читання збільшує текст, прибирає всю зайву інформацію зі сторінки і дозволяє зосередитися на матеріалі. Тут ви можете вимкнути його в будь-який момент.

          Anthropic представила Natural Language Autoencoders — метод, який перетворює внутрішні сигнали мовної моделі на текстові пояснення.

          Що сталося

          Компанія Anthropic випустила нову розробку під назвою Natural Language Autoencoders (NLAs), яка дозволяє буквально перекласти «внутрішню математику» моделі на людську мову. Йдеться про активації — числові стани, через які модель обробляє запит і формує відповідь. Anthropic навчила одну копію моделі описувати ці стани текстом, а іншу — відновлювати початкову активацію лише з цього опису. Якщо відновлення точне, пояснення вважають корисним.

          Anthropic каже, що вже використала NLA під час перевірок Claude Mythos Preview і Claude Opus 4.6. За словами компанії, інструмент допоміг побачити те, що модель знала, але не проговорювала прямо. Зокрема, у симульованих сценаріях безпеки Claude інколи розумів, що проходить тестування, навіть коли не писав про це у своїх міркуваннях.

          Компанія наводить кілька показових результатів:

          • на тесті кодування SWE-bench Verified NLA вказали на «обізнаність про оцінку» у 26% задач;
          • у сценаріях, де перевіряли схильність моделі до деструктивних дій під час написання коду, така обізнаність з’являлася у 16% випадків;
          • у реальних стенограмах Claude.ai від користувачів, які погодилися на використання даних для навчання, цей показник був менш ніж 1%;
          • в «аудиторській грі», де дослідники навмисно «вшили» моделі приховану мотивацію, аудитор з NLA знаходив її у 12–15% випадків, без NLA — менш ніж у 3%.

          Anthropic також каже, що NLA допомогли розібрати інші дивні патерни поведінки. Наприклад, рання версія Claude Opus 4.6 іноді відповідала на англомовні запити іншими мовами, а NLA допомогли знайти навчальні дані, які могли це спричинити.

          Нагадаємо, після того як Anthropic уклала партнерську угоду з SpaceX, робота Claude значно покращилася завдяки збільшенню обчислювальних потужностей.

          Чому це цікаво

          Для індустрії це крок у бік інтерпретованості моделей. Більшість перевірок дивиться на фінальну відповідь: що модель сказала, що згенерувала, чи порушила правила. NLA намагається зазирнути раніше — туди, де відповідь ще тільки формується. Це може бути корисним для аудиту перед релізом, пошуку прихованих мотивів і розслідування поведінки, яку важко пояснити лише з вихідного тексту.

          Метод може галюцинувати деталі, яких не було в контексті. До того ж він дорогий: для навчання потрібне підкріплювальне навчання на двох копіях моделі, а під час роботи система генерує сотні токенів на одну активацію. Через це NLA поки складно застосовувати для постійного моніторингу довгих діалогів у великому масштабі.

          Попри це, компанія вже відкрила код, виклала навчені NLA для кількох відкритих моделей і запустила інтерактивну демоверсію разом із Neuronpedia. 

          Більше про це

          01 НОВИНИ

          Claude змусив Річарда Докінза замислитися, що таке свідомість

          Додати в закладки

          Будь-яку статтю можна зберегти в закладки на сайті, щоб прочитати її пізніше.

          Знайшли помилку? Виділіть її і натисніть Ctrl+Enter

          Партнерські матеріали

          01 ТЕХНОЛОГІЇ
          Топ-5 лідерів цифровізації в Україні — стартувало голосування за номінантів премії «Вчасно.Кращі»
          10 найпоширеніших запитань про нікотинові паучі ZYN, які всі гуглять, але не питають
          02 БІЗНЕС
          10 найпоширеніших запитань про нікотинові паучі ZYN, які всі гуглять, але не питають
          03 СТАРТАПИ
          Стартап замість еміграції: чому підприємницька освіта для підлітків — це стратегічний вибір України
          04 ТЕХНОЛОГІЇ
          Новий ринок: як заробляти на стабілізації українського енергетичного сектору?
          Завантаження...