YouTube, який колись навчав людей, тепер навчає машини. Поки мільйони авторів ділилися знаннями, технологічні компанії тихо зібрали щонайменше 15 млн їхніх відео — без дозволу й пояснень. Контент, створений людьми для людей, став сировиною для тренування штучного інтелекту. У статті The Atlantic Алекс Райснер, журналіст, який спеціалізується на технологіях, штучному інтелекті та впливі цифрових платформ на суспільств, розповідає, хто стоїть за цими зборами й чому така практика може змінити баланс між творчістю людини та алгоритмами.
Матеріал українською мовою підготувало Бюро перекладів для бізнесу MK:translations. Ми публікуємо адаптований та скорочений переклад.
Примітка: цей аналіз є частиною розслідування журналу The Atlantic про те, як відео з YouTube використовуються для навчання інструментів штучного інтелекту. Ви можете скористатися інструментом пошуку безпосередньо тут та перевірити, чи потрапили створені або переглянуті вами відео до цих наборів даних. Ця робота є частиною AI Watchdog — постійного розслідування The Atlantic у сфері індустрії генеративного штучного інтелекту.
Коли Джон Пітерс у 2010 році завантажив на YouTube своє перше відео, він навіть уявити не міг, до чого це згодом призведе. Професійний столяр із маленькою майстернею вирішив показати, як зі старих ніжок від столу, знайдених у сараї, зробити нову обідню поверхню. Здавалося б — проста ідея. Але глядачам сподобалась його щирість і відвертість, і з часом навколо нього виросла справжня спільнота.
«Раптом з’явилися люди, які цінують мою роботу, — пригадує він. — Коментарі під відео були стимулом рухатися далі». Минуло п’ятнадцять років — і на каналі Пітерса вже понад мільйон підписників. Йому надсилають світлини з майстерень, де на великих екранах транслюються його ролики, а за ними уважно стежать інші столяри.
Та тепер уся ця історія — під загрозою. Не лише його канал, а й мільйони інших, де люди безплатно діляться знаннями й досвідом. Тому що, як з’ясувалося, техкомпанії масово викачали понад 15,8 млн відео з більш ніж 2 млн каналів. І зробили це без дозволу авторів. За моїми підрахунками, приблизно мільйон із них — це покрокові відеонастанови. Усе це потрапило до щонайменше 13 різних наборів даних, які вільно роздають науковим центрам і розробникам штучного інтелекту через платформи на кшталт Hugging Face.
Звісно, назви роликів та імена авторів приховані — але кожне відео має свій унікальний ідентифікатор. Автору цього дослідження вдалося звірити їх із YouTube і відкрити, що саме приховується за «анонімізованими» файлами — за тією ж методикою, яку я застосовував, коли розкривав вміст наборів Books3, OpenSubtitles і LibGen. Тепер будь-хто може перевірити, чи потрапив його улюблений канал до цих наборів даних, шляхом введення назв каналів на кшталт MrBeast або James Charles.
Необхідно уточнити: сама поява відео в таких наборах не означає, що їх вже використали для тренування алгоритмів, адже ШІ-компанії могли прибрати певні ролики під час розробки своїх продуктів.
Але факт залишається фактом — розробникам потрібні гігантські обсяги відеоконтенту, щоб навчити штучний інтелект створювати відео. І YouTube перетворився на «золоту жилу». Тут варто розрізняти: так, платні підписники можуть легально завантажувати відео й дивитися їх офлайн через офіційний застосунок. Але те, що відбувається зараз, — зовсім інша історія. Відеофайли масово завантажуються з YouTube і зберігаються у вигляді масиву файлів, і вже потім ними «годують» ШІ-алгоритми.
Це грубе порушення правил платформи. Але інструментів для такого масового завантажування більш ніж достатньо — і користуються ними хто завгодно без жодних обмежень. А YouTube? Принаймні публічно він майже ніяк не реагує. Компанія навіть не відповіла на запит автора розслідування.
Не всі відео на YouTube захищені авторським правом (а дехто взагалі викладає чужий контент без жодних прав), та значна їхня частина таки є власністю авторів. Несанкціоноване копіювання чи поширення таких відео — це порушення закону. Але чи можна вважати тренування ШІ таким самим копіюванням або поширенням — питання, яке нині розглядається в низці гучних судових процесів. Техгіганти наполягають: це «чесне використання» захищених робіт. Деякі судді, втім, мають іншу думку.
Те, як суди зрештою застосують закон до цієї нової технології, може кардинально змінити мотивацію авторів викладати власні роботи на YouTube та інших платформах. Бо якщо компанії й далі забиратимуть контент, аби створювати на його основі конкурентні ШІ-продукти, творцям може не залишитися іншого виходу, як припинити ним ділитися.
Тим часом генеративний ШІ уже видає відео, що напряму конкурують із людською творчістю на YouTube. Історичні ролики, згенеровані штучним інтелектом, збирають сотні тисяч переглядів, але рясніють помилками й перекрученнями. У стрічці вони часто витісняють контент, зроблений експертами й перевірений фактчекерами. Популярні музичні ремікси також дедалі частіше створюють ШІ-інструменти — і часто такі версії випереджають оригінальні роботи за популярністю.
Але проблема не обмежується самим YouTube. Сучасні чат-боти дедалі частіше стають «мультимодальними» — тобто можуть відповідати на запитання не лише текстом, а й доречними зображеннями чи відео. Наприклад, чат-бот Gemini від Google уже вміє генерувати короткі кліпи для користувачів-передплатників. І невдовзі ви зможете попросити ChatGPT чи інший генеративний ШІ показати, як зробити стіл зі знайдених ніжок, і отримати персоналізовану відеоінструкцію. Навіть якщо таке відео буде менш якісним, ніж у Пітерса, проте миттєве й точнісінько під ваш запит. Бізнес онлайн-публікацій вже зазнав удару від текстових генераторів, і творцям відео варто готуватися до аналогічних викликів.
За науковими статтями та розмовами з розробниками, якими я скористався, багато великих компаній вже тренували свої системи на цих наборах даних. Серед них — Microsoft, Meta, Amazon, Nvidia, Runway, ByteDance, Snap і Tencent. Я звернувся до кожної з них із проханням прокоментувати використання цих даних. Відповіли лише Meta, Amazon та Nvidia. Усі троє заявили, що «поважають» творців контенту й переконані: їхні дії є законними в межах чинного авторського права. Amazon навіть уточнив, що нині його зусилля у сфері відео зосереджені на створенні «яскравої, якісної реклами з простих запитів».
Чи використають усі ці компанії відео для прибуткових генераторів? Гарантій немає. Частина їхніх проєктів може бути радше експериментальною. Але в окремих випадках комерційні амбіції очевидні. Наприклад, Meta розробляє цілий пакет інструментів Movie Gen, які створюють відео за текстовими підказками, а Snap вже пропонує AI Video Lenses, що дозволяють користувачам додавати до своїх роликів ефекти, згенеровані ШІ.
І саме відео з цих наборів стають сировиною для подібних продуктів. Адже так само як ChatGPT не зміг би писати у стилі Шекспіра, не «прочитавши» перед цим Шекспіра, відеогенератор не зміг би створити фейковий випуск новин без перегляду тисяч справжніх. І справді, значна частина відео в цих наборах — від новинних та освітніх каналів: BBC має там щонайменше 33 000 роликів (за різними своїми брендами), а TED — майже 50 000. Решта — сотні тисяч відео від індивідуальних творців, таких як Пітерс.
Не всі відео компанії зі сфери штучного інтелекту цінують однаково. Про це свідчить таблиця, яку виданню 404 Media передав колишній співробітник Runway — розробник інструментів для генерації відео ШІ. У ній вказано, що компанія особливо цінувала ролики з «динамічною камерою», «красивими кінематографічними пейзажами», «якісними сценами з фільмів» і «надзвичайно якісними науково-фантастичними короткометражками». Один канал узагалі охрестили «Святий Грааль відеороликів про автомобілі до сьогодні», а про інший написали: «Лише 4 відео, але зроблені напрочуд добре».
Розробники шукають якісний контент різними методами. Наприклад, куратори двох наборів — HowTo100M та HD-VILA-100M — обирали ролики за кількістю переглядів, ототожнюючи популярність із якістю. Творці іншого набору, HD-VG-130M, навпаки зазначали, що «високий перегляд не гарантує високої якості», і застосовували модель ШІ для відбору роликів із кращою «естетичною цінністю». Збирачі даних зазвичай намагаються уникати відео з накладеним текстом — субтитрами чи логотипами, аби такі «мітки» не з’являлися у згенерованих відео.
Тож одна порада для YouTube-авторів: навіть невеликий водяний знак чи логотип робить ролик менш привабливим для навчання ШІ.
Перш ніж передати відео в «харчовий ланцюг» алгоритмів, розробники ріжуть матеріал на короткі кліпи, найчастіше на місцях зміни сцени чи плану. Кожному кліпові призначають опис англійською мовою — так модель навчають зіставляти слова з рухомим зображенням і зрештою створювати відео за текстовим запитом. Є кілька методів написання таких описів: можна наймати людей, які вручну пишуть підписи, а можна — і це набагато дешевше — доручити іншій моделі ШІ зробити це автоматично.
Інструменти для створення відео штучним інтелектом поки що не такі масові, як чат-боти чи генератори зображень, але вже активно використовуються. Щобільше — ви, можливо, вже бачили ШІ-відео, навіть не здогадуючись про це. Наприклад, TED застосовує цю технологію для дубляжу виступів різними мовами. Ідеться не лише про звук — алгоритм підганяє рухи губ під нову мову, тож виглядає так, ніби спікер говорить японською, французькою чи українською. За словами юрисконсульта TED Нішат Рутер, це робиться лише за згодою самих доповідачів.
На ринку вже є й продукти для масового споживача, які дозволяють «підкоригувати» відео за допомогою ШІ. Якщо вам не подобається, як виглядає обличчя, можна скористатися застосунком FaceTune, або взагалі замінити його через Facewow. У Runway Aleph можна змінювати кольори предметів чи перетворювати сонячний день на сніжну бурю.
Існують також інструменти, що створюють нові відео на основі завантаженого зображення. Google Gemini пропонує «оживити улюблені фото» користувачів: система додає вісім секунд руху — і от уже на знімку людина танцює, готує чи б’є м’яч для гольфу. Виглядає це водночас і захопливо, і дещо моторошно. Автоматична генерація «віртуальних спікерів» — наприклад, для корпоративних відеоінструкцій — теж набирає обертів.
Vidnoz AI обіцяє створювати «реалістичних ШІ-спікерів будь-якого стилю». Компанія Arcads рекламує можливість згенерувати повноцінний ролик — з акторами та закадровим голосом. А власник TikTok, ByteDance, вже пропонує схожий продукт під назвою Symphony Creative Studio. Застосувань — безліч: від віртуальної примірки одягу та створення ігор на замовлення до оживлення мультяшних персонажів і навіть реальних людей.
Деякі компанії одночасно працюють зі штучним інтелектом і водночас намагаються захистити власний контент від крадіжок з боку інших ШІ-розробників. Це добре ілюструє «дикий Захід», який нині панує у світі ШІ: компанії користуються правовими сірими зонами, аби з’ясувати, як можна заробити. Під час дослідження цих наборів даних я натрапив на показовий випадок із TED — однієї з найбільш «обкрадених» організацій у згаданих базах, яка водночас сама намагається використовувати ШІ для розвитку бізнесу.
У червні на міжнародному фестивалі реклами Cannes Lions головну нагороду Grand Prix віддали ролику, що містив дипфейкові кадри з виступу на TED ДеАндреї Сальвадор, нині сенаторки від штату Північна Кароліна. Рекламна агенція DM9, за словами юрисконсульта TED Нішат Рутер, «вдалася до клонування ШІ, щоб змінити її промову й використати у комерційній рекламі». Коли підробку викрили, фестиваль відкликав нагороду. Уже наступного місяця Сальвадор подала в суд на DM9 і її клієнтів — Whirlpool та Consul — за незаконне використання її образу та інші порушення. DM9 перепросили, пояснивши це «низкою збоїв у виробництві та відправленні реклами». Представник Whirlpool запевнив мене, що компанія навіть не знала про зміну промови сенаторки.
Інші гравці кіноіндустрії також подали позови проти ШІ-компаній за використання їхнього контенту. У червні Disney та Universal подали в суд на Midjourney, розробника інструменту для генерації зображень, який може створювати картинки з упізнаваними персонажами (минулого тижня до позову приєднався і Warner Brothers). У позові Midjourney назвали «бездонною ямою плагіату».
Наступного місяця дві компанії зі сфери дорослого кіно подали в суд на Meta за завантаження й поширення через BitTorrent понад 2000 їхніх відео. Ані Midjourney, ані Meta на звинувачення не відповіли й мої запити про коментар також проігнорували. Свою власну справу подав і один ютубер: у серпні минулого року Девід Міллетт позвався до Nvidia за «необґрунтоване збагачення» й «несправедливу конкуренцію» у зв’язку з тренуванням її моделі Cosmos AI. Але кілька місяців потому справу було добровільно закрито.
Історія з персонажами Disney та підроблений виступ Сальвадор — лише два приклади того, наскільки руйнівними можуть бути ці інструменти. І це тільки початок: завдяки величезним інвестиціям у технології згенеровані відео невдовзі заполонять простір. Ось, наприклад, компанія DeepBrain AI платить «креаторам» за викладення відео, згенероване штучним інтелектом, на YouTube. Сьогодні пропонують $500 за ролик із 10 000 переглядів — порівняно невисокий поріг. Соціальні гіганти на кшталт Google і Meta також діляться прибутком від реклами з користувачами й прямо заохочують публікацію штучного контенту. Не дивно, що вже з’явилася ціла когорта «гуру», які вчать, як заробляти на ШІ-відео.
Google і Meta також тренували свої моделі на величезних обсягах контенту з власних платформ: Google взяв щонайменше 70 мільйонів кліпів із YouTube, а Meta — понад 65 мільйонів з Instagram. Якщо їм вдасться залити платформи синтетикою, людям-креаторам залишиться лише ганебна роль — конкурувати з машинами, що нескінченно штампують контент, використовуючи їхню ж роботу як паливо. Соцмережі тоді стануть ще менш «соціальними», ніж нині.
Я спитав Пітерса, чи знав він, що його відео використали для тренування ШІ. Він відповів, що ні, але й не здивувався. «Я думаю, що все врешті буде вкрадено», — сказав він. Та додав, що не знає, як діяти далі: «Мені що — кинути все? Чи просто продовжувати знімати й сподіватися, що людям усе ще потрібен зв’язок із реальною людиною?».