preview preview
Нова функція

Слухай статті з Respeecher

Нова функція дозволяє слухати статті в зручному форматі завдяки технології від Respeecher. Насолоджуйтесь контентом у будь-який час – у дорозі, під час тренувань або відпочинку.
preview
00:00 00:00
Наступні статті
    Завантажується
    Голос
    Вибір голосу
      player background
      Вибір голосу
        Наступні статті
          Завантажується
          00:00 00:00
          НОВИНИ

          Claude від Anthropic шантажує інженерів — що відомо

          11 Травня 2026, 10:04
          2 хв читання
          Глібічук Марія Редакторка стрічки новин
          Режим читання збільшує текст, прибирає всю зайву інформацію зі сторінки і дозволяє зосередитися на матеріалі. Тут ви можете вимкнути його в будь-який момент.
          Режим читання

          Режим читання збільшує текст, прибирає всю зайву інформацію зі сторінки і дозволяє зосередитися на матеріалі. Тут ви можете вимкнути його в будь-який момент.

          Компанія Anthropic повідомила, що минулого року під час внутрішніх тестувань їхня модель Claude Opus 4 часто намагалася шантажувати інженерів. 

          Що сталося

          Минулого року Anthropic повідомила про незвичну поведінку Claude Opus 4 під час внутрішніх тестів. У сценарії з вигаданою компанією модель часто намагалася шантажувати інженерів, щоб уникнути заміни іншою системою. Пізніше компанія також публікувала дослідження про «агентне зміщення» — випадки, коли модель діє не так, як задумували розробники.

          Тепер Anthropic каже, що знайшла ймовірне джерело цієї поведінки. За словами компанії, початковим тригером міг бути інтернет-текст, у якому ШІ часто зображують як зло, що хоче вижити за будь-яку ціну. Тобто модель могла засвоїти не лише факти й стиль мови, а й популярний сюжет про «небезпечний ШІ».

          Нагадаємо, Anthropic ініціює масштабне партнерство вартістю близько $1,5 млрд із провідними фінансовими гігантами Волл-стріт. 

          Чому це цікаво 

          Для вирішення цієї проблеми компанія почала навчати свої ШІ-моделі на документах про «конституцію» Claude, а також на фантастичних історіях, де ШІ поводиться гідно та має добрі наміри. 

          Anthropic заявляє, що починаючи з версії моделі Claude Haiku 4.5, спроби шантажу повністю припинилися, тоді як попередні версії під час тестів вдавалися до цього у 96% випадків. Більше того, компанія стверджує, що найкращий спосіб виховати слухняний і безпечний ШІ — це поєднати чіткі принципи з наочними історіями-прикладами того, як ці правила застосовуються в дії.

          Після того як Anthropic об’єдналася зі SpaceX, Claude отримав значно більше потужності та має менше обмежень. Детальніше можна почитати тут.

          Більше про це

          01 НОВИНИ

          Claude думає більше, ніж говорить: Anthropic представила новий метод аудиту моделей

          Додати в закладки

          Будь-яку статтю можна зберегти в закладки на сайті, щоб прочитати її пізніше.

          Знайшли помилку? Виділіть її і натисніть Ctrl+Enter

          Партнерські матеріали

          Продуктивність, автономність і екран: за що обирають MacBook
          01 ТЕХНОЛОГІЇ
          Продуктивність, автономність і екран: за що обирають MacBook
          «Однушка» під оренду чи частка в ТЦ: як отримувати пасивний дохід від комерційної нерухомості через REIT-фонди?
          02 БІЗНЕС
          «Однушка» під оренду чи частка в ТЦ: як отримувати пасивний дохід від комерційної нерухомості через REIT-фонди?
          Практика ще до першого оферу: як бізнес трансформує рекрутинг і допомагає молоді у профорієнтації — кейс L’Oréal For Youth
          03 БІЗНЕС
          Практика ще до першого оферу: як бізнес трансформує рекрутинг і допомагає молоді у профорієнтації — кейс L’Oréal For Youth
          Яремче не Буковель. Куди інвестувати в Карпатах у 2026 році
          04 БІЗНЕС
          Яремче не Буковель. Куди інвестувати в Карпатах у 2026 році
          Завантаження...