НОВИНИ

Claude від Anthropic шантажує інженерів — що відомо

Аудіо версія новини

Слухати

Компанія Anthropic повідомила, що минулого року під час внутрішніх тестувань їхня модель Claude Opus 4 часто намагалася шантажувати інженерів. 

Що сталося

Минулого року Anthropic повідомила про незвичну поведінку Claude Opus 4 під час внутрішніх тестів. У сценарії з вигаданою компанією модель часто намагалася шантажувати інженерів, щоб уникнути заміни іншою системою. Пізніше компанія також публікувала дослідження про «агентне зміщення» — випадки, коли модель діє не так, як задумували розробники.

Тепер Anthropic каже, що знайшла ймовірне джерело цієї поведінки. За словами компанії, початковим тригером міг бути інтернет-текст, у якому ШІ часто зображують як зло, що хоче вижити за будь-яку ціну. Тобто модель могла засвоїти не лише факти й стиль мови, а й популярний сюжет про «небезпечний ШІ».

Нагадаємо, Anthropic ініціює масштабне партнерство вартістю близько $1,5 млрд із провідними фінансовими гігантами Волл-стріт. 

Чому це цікаво 

Для вирішення цієї проблеми компанія почала навчати свої ШІ-моделі на документах про «конституцію» Claude, а також на фантастичних історіях, де ШІ поводиться гідно та має добрі наміри. 

Anthropic заявляє, що починаючи з версії моделі Claude Haiku 4.5, спроби шантажу повністю припинилися, тоді як попередні версії під час тестів вдавалися до цього у 96% випадків. Більше того, компанія стверджує, що найкращий спосіб виховати слухняний і безпечний ШІ — це поєднати чіткі принципи з наочними історіями-прикладами того, як ці правила застосовуються в дії.

Після того як Anthropic об’єдналася зі SpaceX, Claude отримав значно більше потужності та має менше обмежень. Детальніше можна почитати тут.

ЧИТАЙТЕ ТАКОЖ

FOMO OFF
Ламборгіні був не романтиком. Він робив трактори

11 Травня 2026, 12:33

НОВИНИ
Google DeepMind і Anthropic наймають філософів для навчання ШІ людських цінностей

11 Травня 2026, 12:02

НОВИНИ
$15 млн за фото на упаковці: Дуа Ліпа судиться з Samsung

11 Травня 2026, 11:20

БІЗНЕС
Літо, бізнес-кейси і можливість долучитися до команди: «Аврора» відкрила набір до студентської школи 

11 Травня 2026, 11:00

Хто ці люди
Uber для фермерів. Як працює український стартап «єБазар»

11 Травня 2026, 08:34

НОВИНИ
Ця симуляція відтворює галактики майже як у реальності — що відомо

10 Травня 2026, 18:00

БІЗНЕС
5 правил операційної дисципліни — поради для невеликих команд

10 Травня 2026, 13:35

НОВИНИ
Маск, Безос, Наделла: чому лідерство починається з системи

10 Травня 2026, 09:00

НОВИНИ
ШІ може послаблювати пам’ять, увагу й креативність — що кажуть нові дослідження

09 Травня 2026, 18:00

Досвід і думки
Чому системність перемагає швидкість: кейси від засновника SHERIFF

09 Травня 2026, 13:23