НОВИНИ

Claude від Anthropic шантажує інженерів — що відомо

Аудіо версія новини

Слухати

Компанія Anthropic повідомила, що минулого року під час внутрішніх тестувань їхня модель Claude Opus 4 часто намагалася шантажувати інженерів. 

Що сталося

Минулого року Anthropic повідомила про незвичну поведінку Claude Opus 4 під час внутрішніх тестів. У сценарії з вигаданою компанією модель часто намагалася шантажувати інженерів, щоб уникнути заміни іншою системою. Пізніше компанія також публікувала дослідження про «агентне зміщення» — випадки, коли модель діє не так, як задумували розробники.

Тепер Anthropic каже, що знайшла ймовірне джерело цієї поведінки. За словами компанії, початковим тригером міг бути інтернет-текст, у якому ШІ часто зображують як зло, що хоче вижити за будь-яку ціну. Тобто модель могла засвоїти не лише факти й стиль мови, а й популярний сюжет про «небезпечний ШІ».

Нагадаємо, Anthropic ініціює масштабне партнерство вартістю близько $1,5 млрд із провідними фінансовими гігантами Волл-стріт. 

Чому це цікаво 

Для вирішення цієї проблеми компанія почала навчати свої ШІ-моделі на документах про «конституцію» Claude, а також на фантастичних історіях, де ШІ поводиться гідно та має добрі наміри. 

Anthropic заявляє, що починаючи з версії моделі Claude Haiku 4.5, спроби шантажу повністю припинилися, тоді як попередні версії під час тестів вдавалися до цього у 96% випадків. Більше того, компанія стверджує, що найкращий спосіб виховати слухняний і безпечний ШІ — це поєднати чіткі принципи з наочними історіями-прикладами того, як ці правила застосовуються в дії.

Після того як Anthropic об’єдналася зі SpaceX, Claude отримав значно більше потужності та має менше обмежень. Детальніше можна почитати тут.

ЧИТАЙТЕ ТАКОЖ

Досвід і думки
Хто такий CMO і чому це роль не лише про маркетинг 

31 Травня 2026, 13:35

НОВИНИ
Учені виявили «хвилі пам’яті», які пояснюють, як мозок формує спогади

31 Травня 2026, 09:00

НОВИНИ
Чи можливе розмноження людини в космосі: Китай почав експеримент із синтетичними ембріонами

30 Травня 2026, 18:00

FOMO OFF
Феномен Cowboys: як коштувати $13 мільярдів без жодної перемоги за 30 років

30 Травня 2026, 13:34

НОВИНИ
6 фільмів про Київ — добірка до Дня міста

30 Травня 2026, 09:00

НОВИНИ
СЕО OpenAI назвав сфери, де людський контакт поки сильніший за ШІ

29 Травня 2026, 19:20

Борщ
Бігові кросівки, які не можна купити, дармовис із 3D-друку дронів і адаптивний одяг для ветеранів. Що робили українські бренди разом у травні

29 Травня 2026, 19:00

НОВИНИ
Роналду, Мессі, Джеймс: хто увійшов до рейтингу Forbes із доходом понад $100 млн

29 Травня 2026, 18:34

НОВИНИ
Google пом’якшила ліміти Gemini: складні запити більше не з’їдатимуть увесь ліміт

29 Травня 2026, 16:28

НОВИНИ
YouTube зробила подкасти зручнішими для прослуховування в русі

29 Травня 2026, 14:59