Microsoft презентувала рішення для створення діпфейків
16 Листопада 2023, 14:59
2 хв читання
Юлія ТкачШеф-редакторка, авторка і ведуча подкасту «Хто ці люди».
Режим читання збільшує текст, прибирає все зайве зі сторінки та дає можливість зосередитися на матеріалі. Тут ви можете вимкнути його в будь-який момент.
Режим читання
Режим читання збільшує текст, прибирає все зайве зі сторінки та дає можливість зосередитися на матеріалі. Тут ви можете вимкнути його в будь-який момент.
Завершити
На заході Ignite 2023 Microsoft презентувала рішення для створення діпфейків, пише TechCrunch. Розповідаємо деталі.
Що сталося
Одним із найнесподіваніших продуктів, представлених на щорічній конференції Microsoft Ignite 2023 — інструмент, який може створювати фотореалістичні аватари людей. Нова функція Azure AI Speech text to speech avatar дозволяє користувачам створювати відео з промовами аватара. Для цього потрібно завантажити зображення людини, на яку вони хочуть, щоб аватар був схожий, а також написати сценарій.
Інструмент Microsoft тренує модель для керування анімацією. Одночасно інша модель для перетворення тексту на мову (попередньо створена чи натренована на голосі людини) зачитує сценарій.
«За допомогою аватара з перетворенням тексту в мову користувачі можуть більш ефективно створювати відео … створювати навчальні відео, презентації продуктів, відгуки клієнтів [і так далі] просто через введення тексту. Ви можете використовувати аватар для створення розмовних агентів, віртуальних помічників, чат-ботів тощо», — зазначають в Microsoft.
Аватари можуть розмовляти кількома мовами. В сценаріях чат-ботів вони здатні використовувати моделі ШІ (наприклад, GPT-3.5 від OpenAI), щоб відповідати на запити клієнтів.
Персональний голос
Також на заході презентували нову функцію персонального голосу, в рамках спеціального нейронного голосового сервісу Microsoft. Вона може відтворювати голос користувача за кілька секунд за умови, що в якості звукової підказки використовується однохвилинний зразок мовлення. Microsoft позиціонує її як спосіб створення персоналізованих голосових помічників, дублювання контенту різними мовами і створення на замовлення дикторських текстів для оповідань, аудіокниг і подкастів.
Щоб запобігти потенційним юридичним проблемам, Microsoft вимагає від користувачів явну згоду у вигляді записаної заяви, перш ніж дозволить використовувати функцію. Доступ до неї поки закритий за реєстраційною формою.