БІЗНЕС

«Нам довіряють найбільші студії в Голлівуді». Як зробити продукт для рівня «Оскара» — інтерв’ю із CEO Respeecher Олександром Сердюком

Дарія Прудіус 4 марта 2025, 18:00

Два «Оскари», чотири номінації, понад 60 проєктів за рік. Український Respeecher не просто вижив після втрати 50% доходів під час голлівудського страйку акторів, а змусив великі студії довірити їм свої найдорожчі активи: голоси зірок та багатомільйонні бюджети.

«Ми єдині у світі, хто в титрах фільмів, які не тільки номіновані, а тепер вже і виграли «Оскар», — говорить Олександр Сердюк, CEO Respeecher. Так, йдеться про цьогорічні «Бруталіст» і «Емілія Перес».

За цими цифрами — відмова від контракту з репером, засудженим за сексуальне насильство, пропущений проєкт про Енді Воргола через творчі розбіжності. І тиша в соціальних мережах під час «оскарних перегонів», коли весь світ обговорював «Бруталіста».

Журналістка Vector Дарія Прудіус поговорила із Олександром Сердюком про:

Як зробити продукт для рівня «Оскара»? 

Тут є декілька компонентів. Перший — це якість звуку, бо голлівудський продакшн — це про якість. Щоб досягти світового рівня, треба орієнтуватися на найвибагливішого клієнта, а потім зрозуміти: коли робиш синтезований звук, ти оптимізуєш не якийсь параметр, як зазвичай це відбувається з AI-моделями, не конверсію чи іншу метрику.

А природність, унікальність голосу, наявність чи відсутність артефактів. Це дуже суб’єктивні речі, які вимагають звукової експертизи. І щоб продукт містив цю експертизу, ми поєднали два світи:

  1. Світ моделей — людей, які будують ці моделі, Deep Learning Engineers, AI Engineers.
  2. Світ звуку — «звукачів».

Це створило те, що ми називаємо фідбек-луп: наші звукачі впливають на моделі. І дало можливість створити технологію того рівня, яка «проходить» голлівудського звукача. Коли якість правильна, коли звук можна заміксувати в Dolby Atmos — це одна частина історії. 

Друга — етика. Голлівуд сильно трусило останні роки. Це складний, повільний, обережний ринок, який регулюється страхом, коли йдеться про AI.

Найкраща відповідь на страх — це довіра. Для того, щоб побудувати репутацію довіри, лише якості недостатньо.

Треба витримувати етику на найвищих стандартах, що для нас було як бустом, так і обмеженням

Бо коли інші компанії роблять синтезований голос та клонування доступними для будь-кого, не хвилюючись за те, що ці технології можуть використовуватися у зловмисних цілях, і досягають реальних результатів, ми не можемо на них покладатися.

Ми не могли дозволити, щоб наша технологія була в політиці, в класичних фейках, у речах, які показують не тільки технологію, а й нашу компанію, бренд з неправильного боку.

Ми повинні завжди бути дуже вибірковими щодо того, з чим можемо асоціюватися. Навіть відмовлялися від деяких голлівудських фільмів. Наприклад, був фільм про Енді Воргола. Режисер хотів, щоб ми зробили звук, який звучав би синтезовано як робот. Бо Енді під час свого життя уявляв себе роботом. Ми відповіли: «звук Respeecher не буде роботичним на Netflix. Ми на це не підемо».

Був кейс, коли репер, маючи дозвіл на свій голос, хотів випустити альбом, перебуваючи у тюрмі. Ми подумали: репер у тюрмі — це частина культури. Подивімось, що за текст. Подивилися — ну матюкаються, окей. Потім подивилися, за що він у тюрмі, і зрозуміли, що з цим ми асоціюватися не можемо: він був засуджений за сексуальне насильство проти неповнолітніх.

І третій аспект — треба грати за правилами Голлівуду. Бути партнером не тільки для великих студій, маленьких продакшенів, які потім продаються великим студіям, але й для тих людей, які довіряють нам свій голос.

Це також сильно впливає на динаміку стартапу. Можеш уявити, який у нас був інбаунд Нативний інтерес до продукту чи послуги, що виникає завдяки згадкам у медіа, рекомендаціям або успішним кейсам після того, як щось «залетіло» про використання технології в «Бруталісті». І Respeecher мовчав. Чому Respeecher мовчить? Бо це «оскарні перегони». Цього року вони були дуже інтенсивними.

Було багато соціалки і підбурення. І будь-що, що ми скажемо, не мало особливого сенсу, його б розтягли на якісь маленькі шматочки й використали в цій гонитві. Ми поважаємо FilmCraft Майстерність створення фільмів — від режисури до постпродакшну, часто з акцентом на традиційні й високоякісні методи роботи в кіноіндустрії. , ми поважаємо талант.

Тому, тільки після «Оскара» ми починаємо говорити про те, що там відбувалося. Мало хто грає за правилами всієї індустрії, бо вони не дуже стартап-френдлі в загальному розумінні. Але це дає нам можливість бути єдиними в Голлівуді, хто має «Еммі», «Веббі», «Кліо», хто в титрах фільмів, які не тільки номіновані, а тепер вже й виграли «Оскар».

Коли зрозуміли, що консервативний Голлівуд готовий до Respeecher?

Технологія використовувалася у фільммейкінгу завжди, починаючи з камери. Більша частина технологій отримувала якийсь негативний пуш-бек з самого початку, а потім вона була просто частиною інструментарію. Якщо вірити, що FilmCraft базується на людях і ШІ не може зробити те, що можуть люди, то його треба розуміти просто як інструмент. Якщо його розуміти так, то він мало чим відрізняється від інших інструментів, які використовуються в фільммейкінгу.

Наприклад, pitch-correction Технологія корекції висоти тону голосу актора під час постпродакшну фільму на постозвучці, ADR Automated Dialogue Replacement — процес перезапису діалогів акторами в студії після знімань; використовується для покращення якості звуку, коли оригінальний запис має недоліки. , використання sound-alikes Залучення акторів озвучення, голоси яких схожі на голоси оригінальних акторів для запису додаткових діалогів або заміни частин аудіодоріжки. живих людей, візуальних ефектів, яких також зараз дуже багато. 

Коли ми почали, то зрозуміли, що у 2017-2018 роках було багато синтезованого голосу. Зараз теж його багато. Подивилися на весь цей синтезований голос і зрозуміли, що його немає в контенті високого профілю та якості. Чому? Бо він неякісний.

Якщо йдеться про високопрофільний контент, його не можна заміксувати в Dolby Atmos Dolby Atmos — технологія об'ємного звуку, що створює ефект тривимірного звучання (ніби звуки справді оточують людину зі всіх боків) , не можна контролювати, не можна зробити так, щоб він звучав класно. Для нас тоді це був цікавий челендж, навколо якого можна зібрати таку незвичну експертизу.

Ми пішли спочатку до кіноіндустрії, спитали: «Якщо я розв’яжу питання якості голосу, ви будете це використовувати? — Будемо. Наша основна проблема — це якість».

Те, що далі індустрії треба було серйозно понавігуватися через безліч хибних уявлень, які в ній існують, це інше питання, але як інструмент він точно валідний і працює. 

Технологія існує, наше запитання, як навчитися її використовувати правильно, за правилами, етично, не порушуючи базис крафту, права людей, які мають володіти й контролювати свій голос, зокрема синтезований. Певні межі, в яких вона має існувати, і ми в них досить ефективно адаптували технології синтезованого голосу.

Можна заскейлити до того рівня, коли людина просто фізично не може заделіверити таку кількість озвучки. Індустрія вже починає адаптувати технологію синтезованого голосу на набагато більшому скейлі. І все робиться відповідно до стандартів індустрії, до того, що Гільдія кіноакторів узгодила з акторами і зі студією.

Ми одна з тих компаній, яку Гільдія кіноакторів поважає за наш підхід. Коли виникла неочікувана ситуація з «Бруталістом», яка стала несподіванкою для всіх — A24, команди фільму та продакшн-команди — моїм першим кроком був дзвінок до Гільдії кіноакторів. Американська незалежна розважальна компанія, яка спеціалізується на виробництві фільмів і телебачення, а також на кінопрокаті. . Ми пояснили, що саме робили, чому це відповідає правилам, і налагодили зв’язки між усіма зацікавленими, щоб індустрія працювала правильно і відповідно до етичних стандартів.

Це складний і тривалий процес для невеликого стартапу. Однак, якщо говорити про «Оскари» і необхідні кроки для відповідності стандартам, ця робота є ключовою. Індустрія кіно не регулюється єдиним органом, а функціонує завдяки узгодженню правил між багатьма сторонами, які постійно змінюють і адаптують ці норми.

Скільки людей втратило і отримало роботу завдяки Respeecher?

Ми зробили 200 проєктів. Я не можу згадати жодного з них, де хтось би втратив роботу через Respeecher.

Наша технологія, коли йдеться про фільмейкінг, дає можливість Едріану Броді говорити ідеальним угорським акцентом, Емілії Перес заспівати завдяки своїй голосовій трансформації, Робі Вільямсу звучати відповідно до його віку в Betterman, а Тому Хенксу говорити так, як 17 років тому. 

Мені важко знайти кейси в нашій роботі, коли хтось цю роботу втрачав. Зараз нас 30 у штаті. 

Як відомо редакції, зараз ви підіймаєте брідж-раунд. Скільки збираєте і на що плануєте інвестувати?

Я не можу публічно говорити в медіа про підняття брідж-раунду, бо це суперечить правилам SEC, Американської комісії з цінних паперів. 

Нам не так багато треба, щоб бустнутися. Ми працюємо в досить ефективному режимі — заробляємо гроші в індустрії й реінвестуємо значну частину у побудову цієї нової сходинки.

Технологічно ми підготувалися ще до того, як індустрія вистрілила. Ми відомі за наш speech-to-speech. Але ще в кінці 2023 року мали text-to-speech голлівудської якості. Потім зробили так, щоб усе працювало в реальному часі, загорнули все в API, створили інтеграції, зробили технологію on top of the fingers of content creators, тобто максимально доступною та зручною.

Усе це з невеликими інвестиціями й власним ресурсом. За весь час ми підняли всього $4 млн інвестицій, що дуже мало. Щоб побудувати те, що ми створили, в Америці чи Європі, потрібно було б у 5-10 разів більше. 

До яких бізнес-рішень вдавались під час страйку акторів?

Оскільки індустрія була і залишається відносно важкою, ми багато чого пробували.

Наприклад, класичний B2C-напрям. У нас є платформа, на якій можна отримати доступ до бібліотеки голосів, але в якийсь момент ми зрозуміли, що нею конкуруємо з неетичними провайдерами, які дозволяють клонувати голос Байдена або робити порно з Тейлор Свіфт. Це те, що сильно обмежує нас у віральності платформи. Ми не можемо досягти вартості залучення користувача навіть близької до інших віральних платформ. Тому цю гру ми не граємо до моменту, поки не побудуємо свій маркетплейс відомих голосів, для яких будемо надійними партнерами, що вже почали робити.

Ми пробували напрям Healthcare, і там у нас є певний успіх. Вирішили подивитись, чи може наша технологія зміни голосу в реальному часі допомогти людям, які частково втратили свій голос. В першу чергу, це пацієнти з ларингектомією — раком горла. У багатьох з них відбувається операція з видалення голосового апарату. Щоб говорити, вони використовують спеціальний девайс, який притуляють до горла, і він знімає артикуляцію. І звучать вони дуже погано.

Ми просто накладаємо заміну голосу в реальному часі на інший голос. Побачили, що з невеликими адаптаціями моделей ми можемо значно покращити якість їхнього голосу. Їм не треба себе 4-7 разів повторювати, щоб просто донести свою думку доктору або родині. Зараз ми цей напрям, по суті, оформлюємо у велике партнерство з виробниками таких девайсів.

Також пробували кол-центри із заміною голосу в реальному часі й зрозуміли, що це великий ринок, який може бути досить цікавим зі стартап-перспективи. Але наші унікальні переваги там не так активно працюють, і якість не настільки критично важлива, як в інших індустріях. Технологія у нас є, вона найкраща для такого типу застосування, але платформу для кол-центрів ми будувати не будемо. Ті самі гроші краще реінвестуємо в креаторський напрям. 

Ми, наприклад, одні з перших едаптерів C2PA Coalition for Content Provenance and Authenticity — технологія для підтвердження автентичності цифрового контенту. цифрового підпису файлів від Adobe. Серед шести компаній рівня TikTok або Synthesia, ми там найменші. Ми також тісно співпрацюємо з DeepFake-детекторами.

Логіка така: у нас є найкращий DeepFake-продукт у синтезованому голосі, і ми хочемо, щоб DeepFake-детектори, які створюються зараз, відпрацьовували на наші технології. Тому ми даємо їм наші датасети і експертизу, щоб відточувати їхні алгоритми для детекції навіть Respeecher-звуку, щоб якщо десь з’явиться звук схожої якості, вони також відпрацювали. Це серйозний напрям, в який ми вклали багато ресурсів.

Ми також попрацювали в напряму документарної журналістики. Технологія може використовуватись для анонімізації, що важливо в багатьох документальних роботах. Наприклад, є жертва агресії, яка має розказати про свій досвід, але її треба анонімізувати. Що зазвичай роблять? Світять ліхтарем в камеру, щоб не було видно обличчя, і накладають важкий морфінг на голос, від чого він звучить непізнаваним, хоча часто ці морфінги можна відняти. З нашою технологією можна просто замінити голос, зробити його 100% анонімізованим.

До речі, в усіх проєктах, пов’язаних з розслідуванням російської агресії в Україні, де потрібна анонімізація, ми це робимо для суспільного блага.

Те саме може і буде масштабно використовуватись у судах, зокрема на найвищому рівні, бо інформатори, які мають розповісти щось важливе проти величезних корпорацій або країн, повинні мати цю безпеку. І голос можна забезпечити технологічно.

Чому саме зараз вирішили виходити на ринок з українською мовою?

Це інший продукт, ніж speech-to-speech, який ми робили раніше. Text-to-speech у нас з’явився тільки кілька років тому. Пізніше, ніж на ринку він з’явився в цілому. Speech-to-speech як технологія незалежна від мови.

Ми робили проєкти українською мовою також. І ще 27 різними мовами. Тобто speech-to-speech може звучати будь-якою мовою. Але ця технологія обмежена необхідністю мати спікера на вхід. І вона конвертує, по суті, голос в голос.

Text-to-speech ми в реальному часі для англійської запустили тільки в кінці минулого року, здається, в останньому кварталі. Наш підхід до створення нових частин технології завжди спирається на якість. Поки ми не почуємо цю голлівудську якість в реальному часі text-to-speech, ми його не випускаємо.

Ми випустили англійською, і буквально через два місяці в нас вже готова українська версія. На ринку немає якісного text-to-speech, не кажучи вже про реальний час. Він весь звучить або з сильним канадським акцентом, або з сильним англійським через ці великі узагальнені моделі, які ти завжди чуєш, що це синтезований голос. І нам вдалося зробити цю нову версію, по суті, економічно ефективною. Вона конкурує за ціною з усіма наявними альтернативами на ринку.

Хто основний клієнт нового продукту? 

Медіа, більшою мірою, коли треба робити озвучення великої кількості контенту, щоб донести його через голосовий канал, який досить активно розвивається у світі. Але ми бачимо ще багато експериментів із чат-ботами обслуговування клієнтів, які базуються на технології синтезованого голосу в text-to-speech у реальному часі.

Тобто ти телефонуєш, до якогось українського бренду, і розв’язати своє питання можна швидше, ніж чекати на лінії вільного оператора. Технологія розуміє, що ти хочеш, перекладає в текст і передає розумній LLM (умовному чату GPT), і швидко зможе тобі відповісти натуральним людським голосом.

Ця частина «швидко відповісти натуральним людським голосом» — це те, що ми зараз забезпечили. 

Для адаптації від англійської до української мови в нас пройшло трохи менше між 2 місяці.

Велика частина нашої технологічної роботи — це R&D, тобто дослідження і розробка. Ми пробуємо покращити й оптимізувати певні речі в технологію, щоб вона відповідала вимогам певних юзкейсів. Як швидко це вийде, залежить від того, наскільки правильні гіпотези висуватиме собі R&D-команда, як швидко відвалідовуватиме неправильні гіпотези й фокусуватиметься на розвитку найправильніших. 

Напрями покращення технології зазвичай лежать у доменах якості звуку, точності, мови та швидкості. 

Як ви гарантуєте безпеку своїх голосових алгоритмів, особливо зважаючи на потенційні кібератаки?

Це історично була одна з основних вимог до Respeecher від великих студій корпорацій. 

Я читав сценарій Better Мan у 2021 році, коли він тільки з’явився. Ти маєш доступ до поворотів сюжету серіалів, які, наприклад, зараз ще тільки знімаються. Вимоги індустрії до безпеки, як інформаційної, так і технологічної, дуже високі.

У нас є нові загрози, — безпека людей і безперервність процесу, — але вони не стосуються саме технології та даних. Але з погляду саме технологічного процесу, ми все одно ще й досі, грубо кажучи, перебуваємо в умовах, в яких ми перебували п’ять років тому. 

Що буде через наступні чотири роки для Respeecher?

Ми бачимо себе великим платформним постачальником для кіноіндустрії, відеоігор, анімації, для високоякісного контенту, коли всі питання, які стосуються синтезованого голосу, будуть використовуватись із нашою технологією.

Ми бачимо себе набагато більшим і глибшим партнером для відомої інтелектуальної власності, для відомих голосів, які за допомогою нас, нашої технології, репутації та процесів можуть використовувати їх в багатьох продуктах. 

Хто зараз, на твою думку, конкурент Respeecher?

Якщо дуже узагальнено, то ті, хто будують синтезований голос. Але нас виділяє якість і довіра до нас, репутація.

Ми, можливо, конкуруємо певною мірою з імітаторами голосу, з людьми, яким платять за те, щоб вони відтворили чийсь голос. Але на практиці виходить так, що імітатори часто є вхідним голосом для нашої моделі. 

А всі ці інтонаційні речі та імітації, ми на них навіть не націлюємося. Ми беремо найкраще від людей — те, що вони можуть грати ролі або бути керованими щодо того, як грати, і долаємо їхні обмеження. Мати тільки один голос у конкретний момент свого життя, перебуваючи перед мікрофоном і маючи обмеження в акторській грі — наприклад, я не можу співати оперу, але з допомогою нашої технології мій голос може співати оперу; я не можу говорити іспанською, але з технологією голос може говорити іспанською.

А з OpenAI конкуруєте?

Ні, OpenAI — це масмаркет-продукт. У нас стратегія зовсім інша. Вона складна, довша, але йде не через масмаркет, а через найвибагливішого клієнта, спускаючись потім до, можливо, менш вибагливого.

Але наша логіка в тому, що клієнт синтезованого голосу не буде ставати менш вибагливим, бо незалежні кінематографісти зараз мають доступ до технологій, які дозволяють їм створювати дуже конкурентні продукти за десяті, двадцяті, п’ятдесяті частини голлівудського бюджету. Багато в чому завдяки технологіям. І це чудовий світ, в якому ми хочемо бути, бо демократизація креативності — це світ, в якому хочеться жити.

Коли захоплена людина робить якусь відеогру, матиме можливість цю гру не просто випустити, а ще й продати за немало, і зробити її дуже успішною. Людина, яка має конкретну візію свого проєкту, фільму, може зробити його за дуже маленький бюджет і мати світову популярність. І ми вже бачимо, як це починає відбуватися.

Ми хочемо дати наступній генерації творців контенту та креативників найбільшу та доступну якість синтезованого звуку, яка є у світі, є зараз у нас. І, до речі, «Оскари» це підтверджують.

Больше об этом

01 БІЗНЕС

20+ способів просадити гроші з фантазією: інвестиції для тих, хто втомився бути нормальним

Добавить в закладки

Любую статью можно сохранить в закладки на сайте, чтобы прочесть ее позже.