Mistral представила нову модель перетворення тексту в мову з відкритим кодом, яку можна використовувати у голосових помічниках або в корпоративних сценаріях. Про це пише TechCrunch.
Що сталося
Mistral випустила нову модель під назвою Voxtral TTS, з відкритим кодом перетворення тексту в мову. Вона підтримує девʼять мов, включно з англійською, французькою, німецькою, іспанською, нідерландською, португальською, італійською, хінді та арабською. Модель може використовувати голосові помічники AI в корпоративних випадках використання, таких як підтримка клієнтів, оскільки побудована для роботи в режимі реального часу.
Модель здатна адаптувати власний голос за менше ніж 5 секунд зразка, зберігаючи тон, інтонацію та акценти. Вона легко перемикається між мовами, не втрачаючи характеру голосу, що робить її корисною для дубляжу та перекладу в реальному часі.
Як це працює
Voxtral TTS працює як генератор голосу з тексту. Модель має реалістичний голос і прагне озвучувати текст як людина. Крім того, можна підлаштовувати тембр, інтонацію та стиль. Час першого звуку (TTFA) становить 90 мс для 10-секундної вибірки, а коефіцієнт реального часу (RTF) — 6x, тобто 10-секундний аудіокліп генерується приблизно за 1,6 секунди. Voxtral TTS використовується як для смартгодинників, так і для смартфонів чи ноутбуків. Компанії можуть створювати голосових агентів для підтримки клієнтів, продажів або інтерактивних застосунків без великих технічних ресурсів.
Чому це цікаво
Mistral AI, французький стартап, заснований колишніми співробітниками DeepMind та Meta, став одним із лідерів у галузі штучного інтелекту в Європі.
Компанія Mistral відома своїм чат-ботом Le Chat та рядом базових моделей, прагне конкурувати з гігантами на кшталт OpenAI. Mistral AI пропонує як безплатні, так і платні послуги, включно з платною версією Le Chat Pro та API для бізнес-клієнтів.