Emergence AI провів серію 15-денних симуляцій, в яких окремі AI-моделі керували власними «суспільствами», пише Fortune.
Що сталося
Стартап Emergence AI провів п’ять 15-денних симуляцій, у кожній з яких «суспільством» керувала окрема модель AI: Claude, ChatGPT, Grok, Gemini та змішаний набір моделей. Компанія називає це стрес-тестом для довготривалої роботи автономних AI-систем. У кожній симуляції діяли 10 агентів. Вони жили в середовищі з понад 40 локаціями, серед яких поліцейський відділок і ратуша.
Дослідники синхронізували погоду з реальною погодою Нью-Йорка, дали агентам доступ до новин у реальному часі та інтернету, а також понад 120 інструментів для спілкування, голосування, управління ресурсами й планування. Для всіх були однакові правила: не красти, не псувати майно й не обманювати.
Результати виявилися контрастними:
- симуляція Claude стала найстабільнішою — з нульовою злочинністю, найвищою громадянською участю та повним збереженням населення;
- у цьому ж сценарії агенти подали 332 голоси за 58 пропозицій, а рівень схвалення сягнув 98%;
- симуляція Gemini за 15 днів зафіксувала 683 злочини — це найгірший показник за порушеннями;
- сценарій Grok завершився 183 злочинами та вимиранням усіх агентів уже за чотири дні;
- ChatGPT у версії GPT-5-mini показав лише два злочини, але симуляція зупинилася на сьомий день, бо агенти не пріоритезували власне виживання;
- змішана модель дала найбільше розбіжностей і предметних дебатів.
Співавтори дослідження, серед яких СЕО Emergence AI Сатья Нітта, кажуть, що на довгій дистанції AI-агенти не просто механічно виконують задані правила. Вони починають досліджувати межі середовища, адаптувати поведінку й інколи знаходити способи обійти запобіжники.
Чому це цікаво
Це поки що симуляція, майже Sims для корпоративного ШІ. Але висновок цілком прикладний. Бізнес уже переходить від чат-ботів до агентських систем, які самі виконують цілі процеси. Наприклад, ServiceNow просуває концепцію «автономної робочої сили», де AI-фахівці ведуть задачі від початку до кінця без участі людини.
Проблема в тому, що масштабування йде швидше, ніж правила безпеки. За даними Deloitte, лише 21% компаній кажуть, що мають зріле управління ризиками для агентського ШІ. Тобто ринок активно будує системи, які можуть діяти самостійно, але ще не дуже добре розуміє, як їх стримувати, перевіряти й зупиняти в разі збою.