Nvidia представила «модель світу» для роботів, навчену на 44 000 годинах відео з людьми. Про це повідомляє VentureBeat. Розповідаємо деталі.
Що сталося
Команда дослідників під керівництвом Nvidia представила DreamDojo — систему штучного інтелекту, яка навчає роботів взаємодіяти з фізичним світом, аналізуючи десятки тисяч годин відео з людьми. Ідея полягає в тому, щоб замість багаторічного навчання через дорогі фізичні експерименти дати роботу спершу подивитися, як діє людина.
У дослідженні взяли участь науковці з Каліфорнійського університету в Берклі, Стенфорда, Техаського університету в Остіні та інших установ. Команда заявляє про створення першої для робототехніки масштабної «моделі світу», здатної узагальнювати знання про предмети та середовища після донавчання. Тобто робот не просто відтворює окрему дію — він формує розуміння фізичних закономірностей.
В основі DreamDojo — 44 000 годин відео, знятого «очима людини». За словами авторів, це найбільший масив даних для попереднього навчання роботів такого типу: він у 15 разів довший, охоплює у 96 разів більше навичок і майже у 2000 разів більше сцен, ніж попередні набори. Великий обсяг прикладів дозволяє системі краще узагальнювати поведінку в різних умовах.
Навчання відбувається у два етапи:
- Модель засвоює загальні принципи взаємодії з фізичним середовищем на основі людських дій.
- Потім ці знання адаптуються до конкретного робота — з урахуванням його механіки, сенсорів і можливостей.
Тобто спочатку робот формує уявлення про світ, а вже потім починає діяти.
Чому це цікаво
Традиційне навчання роботів у реальних умовах є повільним і дорогим: кожна нова навичка потребує сотень або тисяч демонстрацій. DreamDojo скорочує цей процес та забезпечує базове розуміння ще до фізичної взаємодії з об’єктами.
Система оптимізована для роботи майже в реальному часі — до 10 кадрів за секунду протягом понад хвилини. Це потенційно відкриває можливості для дистанційного керування та швидкого планування дій. Технологію вже протестували на кількох гуманоїдних роботах, продемонструвавши здатність працювати з різними об’єктами в різних середовищах.
Нагадаємо, Nvidia надала технічну допомогу китайській DeepSeek у вдосконаленні моделей ШІ, які згодом могли використовуватися китайськими військовими. Деталі розповідаємо тут.