Науковці перевірили, чи здатні сучасні ШІ-інструменти повністю замінити людей у реальних робочих завданнях. Про це пише Inc. Розповідаємо головне з дослідження.
Що сталося
Технологічний стартап Scale AI спільно з некомерційною організацією Center for AI Safety провели дослідження, щоб перевірити, наскільки сучасні системи штучного інтелекту здатні повністю замінити людську працю в реальних робочих завданнях. Для цього вони створили Remote Labor Index (RLI) — індекс, який вимірює рівень автоматизації завдань, що зазвичай виконуються людьми від початку до кінця.
У межах дослідження вчені зібрали 240 реальних робочих завдань, які раніше виконували позаштатні працівники на замовлення бізнес-клієнтів. Йдеться про економічно цінні проєкти у сферах дизайну, розробки програмного забезпечення, анімації, аналізу даних, архітектури та розробки ігор. Ці завдання використали як тестові кейси для оцінювання того, чи можуть програми штучного інтелекту самостійно досягти прийнятного результату без участі людини.
Дослідники залучили кілька популярних систем штучного інтелекту, зокрема ChatGPT, Gemini, Grok, Sonnet, Manus та інші. Кожна з них мала виконати ті самі завдання, що й люди, з дотриманням вимог до якості, які зазвичай застосовують у роботі з клієнтами.
Результати показали, що жодна з протестованих систем не змогла ефективно автоматизувати більшість завдань. Найкращий показник серед моделей становив близько 2,5% успішної повної автоматизації, тоді як найнижчий — приблизно 0,8%. У 97% випадків програми не змогли виконати роботу на рівні, який можна було б прийняти як готовий результат для замовника.
У звіті зазначається, що штучний інтелект часто генерував неповні, помилкові або некоректні рішення, особливо в завданнях, які вимагали роботи з візуальними інтерфейсами, перевірки результатів або багаторазового доопрацювання. Саме ці етапи, за словами дослідників, залишаються критично складними для автоматизації.
СЕО Center for AI Safety Ден Хендрікс також наголосив, що сучасні системи штучного інтелекту не мають здатності навчатися безпосередньо під час виконання роботи та накопичувати довготривалу пам’ять у процесі спроб і помилок. Крім того, їхні візуальні можливості залишаються обмеженими, що знижує ефективність у практичних проєктах.
Що далі
У підсумку автори дослідження дійшли висновку, що попри значний прогрес у розвитку моделей штучного інтелекту, нинішній рівень автоматизації не дозволяє масово замінювати людських працівників у складних віддалених завданнях.