НОВИНИ

Emergence AI змоделював 5 «світів» для ШІ: Claude втримав порядок, а Grok довів суспільство до вимирання

Аудіо версія новини

Слухати

Emergence AI провів серію 15-денних симуляцій, в яких окремі AI-моделі керували власними «суспільствами», пише Fortune. 

Що сталося

Стартап Emergence AI провів п’ять 15-денних симуляцій, у кожній з яких «суспільством» керувала окрема модель AI: Claude, ChatGPT, Grok, Gemini та змішаний набір моделей. Компанія називає це стрес-тестом для довготривалої роботи автономних AI-систем. У кожній симуляції діяли 10 агентів. Вони жили в середовищі з понад 40 локаціями, серед яких поліцейський відділок і ратуша. 

Дослідники синхронізували погоду з реальною погодою Нью-Йорка, дали агентам доступ до новин у реальному часі та інтернету, а також понад 120 інструментів для спілкування, голосування, управління ресурсами й планування. Для всіх були однакові правила: не красти, не псувати майно й не обманювати.

Результати виявилися контрастними:

  • симуляція Claude стала найстабільнішою — з нульовою злочинністю, найвищою громадянською участю та повним збереженням населення;
  • у цьому ж сценарії агенти подали 332 голоси за 58 пропозицій, а рівень схвалення сягнув 98%;
  • симуляція Gemini за 15 днів зафіксувала 683 злочини — це найгірший показник за порушеннями;
  • сценарій Grok завершився 183 злочинами та вимиранням усіх агентів уже за чотири дні;
  • ChatGPT у версії GPT-5-mini показав лише два злочини, але симуляція зупинилася на сьомий день, бо агенти не пріоритезували власне виживання;
  • змішана модель дала найбільше розбіжностей і предметних дебатів.

Співавтори дослідження, серед яких СЕО Emergence AI Сатья Нітта, кажуть, що на довгій дистанції AI-агенти не просто механічно виконують задані правила. Вони починають досліджувати межі середовища, адаптувати поведінку й інколи знаходити способи обійти запобіжники.

Чому це цікаво

Це поки що симуляція, майже Sims для корпоративного ШІ. Але висновок цілком прикладний. Бізнес уже переходить від чат-ботів до агентських систем, які самі виконують цілі процеси. Наприклад, ServiceNow просуває концепцію «автономної робочої сили», де AI-фахівці ведуть задачі від початку до кінця без участі людини.

Проблема в тому, що масштабування йде швидше, ніж правила безпеки. За даними Deloitte, лише 21% компаній кажуть, що мають зріле управління ризиками для агентського ШІ. Тобто ринок активно будує системи, які можуть діяти самостійно, але ще не дуже добре розуміє, як їх стримувати, перевіряти й зупиняти в разі збою.

ЧИТАЙТЕ ТАКОЖ

БІЗНЕС
Постери, гравіювання та колаборація з художником: як IQOS святкує 10 років в Україні?

28 Травня 2026, 19:00

НОВИНИ
Apple готує найбільше оновлення Siri за майже 15 років

28 Травня 2026, 18:12

ТЕХНОЛОГІЇ
Xiaomi 17T вийшов в Україні з професійною телефотокамерою у двох моделях: як це впливає на зйомку? 

28 Травня 2026, 17:00

НОВИНИ
Київська кав’ярня Hogo, яка постраждала від обстрілу, потрапила у скандал через російськомовні коментарі власниці

28 Травня 2026, 16:45

НОВИНИ
Uber витратила річний бюджет на Claude Code ще до середини року

28 Травня 2026, 14:12

НОВИНИ
Українці декларують лише 5% доходів з OnlyFans через ризик кримінальних справ

28 Травня 2026, 13:24

НОВИНИ
Ісландія стала найдорожчою країною світу, обійшовши Швейцарію

28 Травня 2026, 12:26

НОВИНИ
Google відправила у відпустку інженера, якого звинуватили у ставках на інсайді

28 Травня 2026, 11:17

БІЗНЕС
AI у комунікаціях бізнесу: чому більшість впроваджень зупиняються — і що з цим робити

28 Травня 2026, 11:00

НОВИНИ
Meta запускає платні підписки Plus для Instagram, Facebook і WhatsApp

28 Травня 2026, 10:00