НОВИНИ

Google розробляє ШІ-модель для створення звуку до відео

19 Червня 2024, 12:00
2 хв читання
Максим Шпирка Пишу новини про бізнес, технології та підприємництво.
СБУ виявила IT-компанію, яка співпрацювала з бойовиками
Режим читання збільшує текст, прибирає всю зайву інформацію зі сторінки і дозволяє зосередитися на матеріалі. Тут ви можете вимкнути його в будь-який момент.
Режим читання

Режим читання збільшує текст, прибирає всю зайву інформацію зі сторінки і дозволяє зосередитися на матеріалі. Тут ви можете вимкнути його в будь-який момент.

Google DeepMind представив технологію на основі ШІ V2A, яка автоматично створює аудіо для відео без текстових підказок, пише Mashable. Ми вибрали головне.

Що сталося

Компанія Google DeepMind розробляє технологію на базі ШІ для створення саундтреків до відео. Технологія V2A (video to audio) створена для автоматичного генерування музики, звукових ефектів та діалогів для відео на основі текстових описів.

V2A працює, використовуючи модель, яка навчається на основі візуальних даних, мовних підказках та відеоанотаціях, щоб перетворювати випадковий шум у звук, що відповідає тону та контексту відео.

У компанії кажуть, що нова технологія може розпізнавати зображення, тому текстові підказки не потрібні, але вони можуть допомогти зробити звук точнішим. DeepMind вже опублікував кілька відео, серед яких:

  • відео темного, моторошного коридору, що супроводжується музикою жахів;
  • самотнього ковбоя на заході сонця під приємну мелодію губної гармошки;
  • анімовані фігури, які розповідають про свою вечерю.

Окрім того, V2A використовуватиме водяні знаки Google SynthID для захисту створеного вмісту від підробки. Наразі нова технологія перебуває на етапі тестування.

Чому це цікаво

Google працює над розробкою мультимодальної генеративної технології ШІ, щоб конкурувати з іншими компаніями:

  • OpenAI має свій ШІ-генератор відео Sora (ще не випущений) і GPT-4o.
  • Meta і Suno вже вивчають аудіо та музику, створені ШІ, але поєднання аудіо з відео є відносно новим.
  • ElevenLabs має подібний інструмент, який поєднує аудіо з текстовими підказками, але DeepMind стверджує, що V2A відрізняється тим, що не потребує текстових підказок.

Більше про це

01 НОВИНИ

8 безоплатних курсів з використання ШІ та ChatGPT — добірка

Додати в закладки

Будь-яку статтю можна зберегти в закладки на сайті, щоб прочитати її пізніше.

Знайшли помилку? Виділіть її і натисніть Ctrl+Enter

Партнерські матеріали

Допомогти дітям з інвалідністю комунікувати. Що відомо про переможця акселератора WinWin Deep Tech
01 ТЕХНОЛОГІЇ
Допомогти дітям із порушенням мовлення комунікувати. Що відомо про переможця акселератора WinWin Deep Tech
Освіта без кордонів: івент Study.ua відкрив нові горизонти для українських абітурієнтів
02 Суспільство
Освіта без кордонів: івент Study.ua відкрив нові горизонти для українських абітурієнтів
Навіщо бізнесу GPS-навігатор: як працює принцип мапування за Саймоном Вордлі
03 БІЗНЕС
Навіщо бізнесу GPS-навігатор: як працює принцип мапування за Саймоном Вордлі  
Кібербезпека 2025: як український бізнес захищає себе від кібератак через ПЗ за допомогою аудитів PCI SLC
04 ТЕХНОЛОГІЇ
Кібербезпека 2025: як український бізнес захищає себе від кібератак через ПЗ за допомогою аудитів PCI SLC 
Завантаження...