preview preview
Нова функція

Слухай статті з Respeecher

Нова функція дозволяє слухати статті в зручному форматі завдяки технології від Respeecher. Насолоджуйтесь контентом у будь-який час – у дорозі, під час тренувань або відпочинку.
preview
00:00 00:00
Наступні статті
    Завантажується
    Голос
    Вибір голосу
      player background
      Вибір голосу
        Наступні статті
          Завантажується
          00:00 00:00
          НОВИНИ

          Claude від Anthropic шантажує інженерів — що відомо

          11 Травня 2026, 10:04
          2 хв читання
          Глібічук Марія Редакторка стрічки новин
          Режим читання збільшує текст, прибирає всю зайву інформацію зі сторінки і дозволяє зосередитися на матеріалі. Тут ви можете вимкнути його в будь-який момент.
          Режим читання

          Режим читання збільшує текст, прибирає всю зайву інформацію зі сторінки і дозволяє зосередитися на матеріалі. Тут ви можете вимкнути його в будь-який момент.

          Компанія Anthropic повідомила, що минулого року під час внутрішніх тестувань їхня модель Claude Opus 4 часто намагалася шантажувати інженерів. 

          Що сталося

          Минулого року Anthropic повідомила про незвичну поведінку Claude Opus 4 під час внутрішніх тестів. У сценарії з вигаданою компанією модель часто намагалася шантажувати інженерів, щоб уникнути заміни іншою системою. Пізніше компанія також публікувала дослідження про «агентне зміщення» — випадки, коли модель діє не так, як задумували розробники.

          Тепер Anthropic каже, що знайшла ймовірне джерело цієї поведінки. За словами компанії, початковим тригером міг бути інтернет-текст, у якому ШІ часто зображують як зло, що хоче вижити за будь-яку ціну. Тобто модель могла засвоїти не лише факти й стиль мови, а й популярний сюжет про «небезпечний ШІ».

          Нагадаємо, Anthropic ініціює масштабне партнерство вартістю близько $1,5 млрд із провідними фінансовими гігантами Волл-стріт. 

          Чому це цікаво 

          Для вирішення цієї проблеми компанія почала навчати свої ШІ-моделі на документах про «конституцію» Claude, а також на фантастичних історіях, де ШІ поводиться гідно та має добрі наміри. 

          Anthropic заявляє, що починаючи з версії моделі Claude Haiku 4.5, спроби шантажу повністю припинилися, тоді як попередні версії під час тестів вдавалися до цього у 96% випадків. Більше того, компанія стверджує, що найкращий спосіб виховати слухняний і безпечний ШІ — це поєднати чіткі принципи з наочними історіями-прикладами того, як ці правила застосовуються в дії.

          Після того як Anthropic об’єдналася зі SpaceX, Claude отримав значно більше потужності та має менше обмежень. Детальніше можна почитати тут.

          Більше про це

          01 НОВИНИ

          Claude думає більше, ніж говорить: Anthropic представила новий метод аудиту моделей

          Додати в закладки

          Будь-яку статтю можна зберегти в закладки на сайті, щоб прочитати її пізніше.

          Знайшли помилку? Виділіть її і натисніть Ctrl+Enter

          Партнерські матеріали

          01 ТЕХНОЛОГІЇ
          Топ-5 лідерів цифровізації в Україні — стартувало голосування за номінантів премії «Вчасно.Кращі»
          10 найпоширеніших запитань про нікотинові паучі ZYN, які всі гуглять, але не питають
          02 БІЗНЕС
          10 найпоширеніших запитань про нікотинові паучі ZYN, які всі гуглять, але не питають
          03 СТАРТАПИ
          Стартап замість еміграції: чому підприємницька освіта для підлітків — це стратегічний вибір України
          04 ТЕХНОЛОГІЇ
          Новий ринок: як заробляти на стабілізації українського енергетичного сектору?
          Завантаження...