НОВИНИ

Штучний інтелект не вміє грати в «Маріо» (поки що) — яка модель впоралась краще

Аудіо версія новини

Слухати

TechChrunch пише, що дослідники з Каліфорнійського університету в Сан-Дієго використовують гру Super Mario Bros. для тестування штучного інтелекту. Розповідаємо про результати дослідження.

Що сталося

Дослідники з Каліфорнійського університету в Сан-Дієго використовують гру Super Mario Bros. для тестування штучного інтелекту. Вони виявили, що ця гра є складнішим випробуванням для ШІ, ніж Pokеmon, в який штучний інтелект грав доволі повільно.

Для експерименту залучали різні моделі ШІ:

  • Claude 3.7;
  • Gemini 1.5 Pro;
  • GPT-4o;

Claude 3.7 показав найкращі результати, тоді як інші моделі мали труднощі.

Для тестування використовувалася модифікована версія гри, запущена в емуляторі та інтегрована з фреймворком GamingAgent. Цей фреймворк надавав ШІ базові інструкції та знімки екрана, а ШІ, своєю чергою, генерував код Python для керування Маріо.

У чому різниця між іграми

Дослідження показало, що моделі ШІ, які використовують покрокове міркування, показали гірші результати в цій грі, оскільки їм потрібен час для прийняття рішень, що є критичним фактором у Super Mario Bros. порівняно з Pokеmon.

Хоча ігри вже давно використовуються для тестування ШІ, досі немає чіткого зв’язку між ігровими навичками ШІ та реальним прогресом. Нібито ігри є абстрактними та спрощеними в порівнянні з реальним світом. Проте, експеримент з Super Mario Bros. дозволяє спостерігати за тим, як ШІ справляється зі складними завданнями в реальному часі.

ЧИТАЙТЕ ТАКОЖ

КРЕАТИВ
Українські CEO пробивають репутаційне дно в Threads. І це проблема не платформи

07 Лютого 2026, 13:12

НОВИНИ
5 фільмів, заради яких варто оформити підписку на Netflix у лютому

07 Лютого 2026, 09:00

НОВИНИ
Amazon вливає $200 млрд в ШІ-гонку та надуває бульбашку до межі

06 Лютого 2026, 17:01

НОВИНИ
Венчур a16z пояснив, чому стартапам не варто прагнути до $100 млн ARR за місяць

06 Лютого 2026, 16:20

НОВИНИ
Розкладний iPhone з найбільшим акумулятором та MacBook Pro M5 — які новинки Apple очікуємо

06 Лютого 2026, 14:22

НОВИНИ
$3 млн від сексуального злочинця — куди інвестував Епштейн

06 Лютого 2026, 13:14

НОВИНИ
$60 млрд за 2025 рік — YouTube обігнав за доходом Netflix

06 Лютого 2026, 12:07

НОВИНИ
Номінантку Forbes «30 до 30» звинуватили у шахрайстві — деталі

06 Лютого 2026, 11:16

НОВИНИ
10,68 млн грн штрафів: як бізнес порушує правила реклами в Україні — дані «Опендатабот»

06 Лютого 2026, 10:00

Як вони працюють
Без ніші, майже без конкурентів та ринку в найближчі 5 років. Як працює Haiqu — перший квантовий deeptech, з інвестиціями Toyota і талантами з Microsoft

06 Лютого 2026, 08:34