Голоси ваших лідерів думок: як з’явилася функція озвучення статей у Vector

26 Червня 2025, 08:34

9 хв читання

Аудіо версія новини

Юлія Ткач

Головна редакторка, авторка і ведуча подкасту «Хто ці люди».

Нещодавно в Vector з’явилось озвучення статей голосами українських лідерів думок. Сподіваюся, ви вже встигли протестувати їх усі: голос Гаріка Корогодського, Ігоря Фінашкіна, Артема Бородатюка, Сабіни Мусіної, Ісмаіла Осбанова, Positiff — і обрали свій улюблений. Розповідаємо, чому з’явилася наша фіча, як вона впливає на читачів та як плануємо її розвивати.

Що ми запустили і як це працює

Якщо ти досі не знайомий з нашою функцією, прямо зараз натискай на плашку «Слухати», адже це той випадок, коли один раз почути — ефективніше. За зручною фічею стоїть складна технологічна архітектура: усе працює на технології text-to-speech. Тобто, це перетворення тексту на синтезований голос: стаття обробляється ШІ-інструментами, які генерують аудіофайл.

Київський стартап Respeecher, який став партнером та технічним драйвером розробки, розповів про створення голосових моделей. Отож, механіка така:

Юридична підготовка та збір даних. На цьому етапі спікер проходить юридичну процедуру, надаючи дозвіл на використання свого голосу та ділячись авторськими правами. Паралельно відбувається збір вихідних даних — записів цільового голосу. Для створення якісної голосової моделі, яка підтримує функції text-to-speech, спікеру необхідно начитати близько години різноманітних текстів у студії. Це дозволяє охопити широкий діапазон, емоційні відтінки та інтонації голосу.
Обробка та тренування моделі. Після запису сирі аудіодані підлягають обробці. Коли вихідний аудіофайл завантажується в систему ШІ, він проходить через етап попередньої обробки, де конвертується у математичне представлення, зрозуміле моделі, таке як спектрограми (візуальне представлення аудіосигналу, що показує зміну частотних компонентів звуку в часі). Аудіосигнал розділяється на короткі відрізки (вікна), для кожного з яких розраховується перетворення Фур’є (FFT) для отримання частотного спектра.

Далі відбувається ключовий етап — тренування моделі за використання ML-фреймворків.

Затвердження та бета-тестування. Готова голосова модель проходить етап бета-тестування, де відбувається ретельна оцінка. Ключовими критеріями є моделі синтезованого голосу, вони оптимізуються не лише за вимірюваними параметрами, а й за суб’єктивними показниками, такими як натуральність звучання, схожість з оригіналом та усунення артефактів синтезованого голосу (цифрового шуму).

Звісно, якість ШІ-голосу є ключовим фактором. Простіші моделі все ще можуть звучати монотонно або неправильно ставити наголоси, особливо в складних реченнях або з маловідомими словами.

Та Respeecher — одні з найкращих у світі в плані інтонацій, емоційності та можливості вибору різних голосів чи налаштування швидкості відтворення. Одні з відомих проєктів — омолодження голосу Люка Скайвокера у серіалі «Мандалорець», повернення легендарного голосу Дарта Вейдера, розробка голосу Вінса Ломбарді для голограми Super Bowl та інші.

У партнерстві з Respeecher ми розробили кастомні голосові моделі, але фінальна якість потребує втручання людини. Ми найняли окремого літредактора саме для аудіоверсії: він прослуховує озвучення, вносить правки в місця, де ШІ міг зробити помилку у наголосі чи інтонації. До того ж, озвучка не з’являється миттєво — це процес, який потребує часу та ручної перевірки.

Хоча Respeecher може працювати з невеликим обсягом даних, для повного покриття всіх можливих нюансів голосу та мови завжди існує ризик нестачі даних у певних сценаріях. Якщо певні інтонації, емоції чи звуки рідко трапляються в тренувальних даних, модель може відтворювати їх неточно або помилятися, коли вони з’являються.

Що змінила функція озвучки статей

Усі ці складнощі заради того, аби показати: існує новий виток еволюції для медіа. ЗМІ стикаються зі зміною споживацьких звичок. І ключовий процес, до якого треба адаптуватися — швидкість обробки інформації.

Наприклад, минулого місяця Google запустив тестування нової опції своого ШІ-помічника: тепер він підсумовує тексти або відповідає на запитання прямо в браузері. Це дозволяє користувачам отримувати необхідну інформацію, не переходячи на сайти-джерела. Як наслідок, редакції втрачають значну частину трафіку та прибутків через зниження кліків і відвідуваності їхніх ресурсів.

У цьому новому інформаційному середовищі медіа вимушені адаптуватися — шукати нові формати, додану цінність і способи утримання читача. Саме тому з’являються нові фічі, експерименти з поданням контенту та, часом, справжні «танці з бубнами», аби не втратити зв’язок із аудиторією.

Юлія Ткач Шеф-редакторка Vector

«Vector — це не просто медіа, яке пише про технології та бізнес. Ми самі працюємо за принципами tech-бізнесу: шукаємо нові рішення, швидко ітеруємо та впроваджуємо інновації, експериментуємо, тестуємо гіпотези і мислимо масштабами продукту.

Функція озвучування матеріалів — це наша відповідь на нову реальність, де увага розсіяна, а контент має бути не лише якісним, а й максимально адаптованим під життя читача. Ми побачили запит на багатоканальне споживання і запровадили функцію, що дозволяє слухати статтю не лише з початку, а з будь-якого місця в тексті. Це перший кейс такого рівня на світовому медіаринку.

Для нас це не просто функція. Це — про бачення медіа майбутнього, де голос — такий самий інтерфейс для знань, яким колись став текст».

В умовах збільшення тривалості екранного часу та зростання уваги до питань цифрового благополуччя, аудіоформат надає альтернативний спосіб споживання інформації. Екранна втома (Screen Fatigue) перетворилася на чітко окреслене явище, яке знижує якість життя. Це комплекс симптомів, таких як напруга очей, головний біль або загальне відчуття дискомфорту, що виникають внаслідок тривалого використання цифрових екранів.

Озвучені статті дозволяють зменшити візуальне навантаження та інтегрувати отримання інформації в повсякденну діяльність, включно з часом у русі, без необхідності використання екрана. Це дає змогу слухати контент тоді, коли немає змоги читати або дивитися.

Окрім зручності та адаптації під спосіб життя, наша функція — це крок до інклюзивності. Для нас прогрес та розвиток — не тільки про інновації, а й про відповідність контексту. Українське суспільство переорієнтовується на адаптивність та пошук рішень, які роблять продукти, бізнеси та контент доступнішими.

Довгий час медіа обмежувалися зміною кольорової версії для людей з дислексією та можливістю збільшити шрифт. Однак озвучування статей робить контент зручним для тих, хто має порушення зору.

FAQ: усе, що викликає суперечки

Разом із можливостями, використання ШІ несе і етичні питання, на які ми зараз відповімо.

Чи може ШІ-голос повністю замінити живого диктора? Чи не втрачається «душа» тексту, коли його озвучує машина, а не людина з її емоціями та інтонаціями?

Живий голос завжди матиме цінність. Основне питання полягає не в тому, яким голосом озвучено слова. Важливо, хто їхній автор. Ми цінуємо інтерв’ю чи подкасти не тільки тому, що у спікера приємний голос, а завдяки тим тезам, які висловлюються людиною.

Чи не вплине поширення голосових моделей на створення deepfake-ів зі спікерами?

Як казав дядько Стен Пітеру Паркеру: «З великою силою приходить велика відповідальність». Vector та Respeecher ретельно ставляться до питання авторських прав та при юридичному супроводі категорично позначають межі, в яких буде застосовуватися голосова модель, сюди входить і конфіденційність усіх матеріалів, що застосовуються для створення.

Як це вплине на професії дикторів, читців, акторів озвучування?

Голосові моделі не забирають роботу, а навпаки, створюють нові робочі місця. Перш за все, text-to-speech не може існувати без того, хто стане донором голосу. Для дикторів це — новий інструмент та платформа для проявлення. Ба більше, обслуговування голосових моделей вимагає спеціалістів у сферах ШІ, продюсування звуку та корекції. Таким чином, робочих місць стає тільки більше.

Що Vector робитиме далі з розробкою

Перш за все, ми плануємо оновлювати перелік доступних для вас голосів. Нам хочеться залучати більше відомих людей, лідерів думок та підприємців, які поділяться своїм голосом з вами.

Також як медіа про креативну економіку хочемо відкрити бізнесу нові формати взаємодії з аудиторією. Наші партнери вже можуть створювати колонку не лише у тексті, а й у впізнаваному голосі — свого фаундера, амбасадора чи експерта. Це формує емоційний зв’язок, впізнаваність, і додає бренду живого звучання.

Зрештою, досвід Vector підтверджує: голос стає таким самим важливим інтерфейсом для знань, як колись ним став текст. Медіа майбутнього —– це медіа, які не лише якісно пишуть, а й «звучать», відповідаючи на запит швидкості, зручності та інклюзивності. «Краще один раз побачити» — більше не стандарт. Інколи краще почути.

Більше про це

01 НОВИНИ

Озвучка текстів через технологію text-to-speech: Vector презентує ШІ-фічу

#Respeecher #Vector #Штучний інтелект