НОВИНИ

70 мов на вході й 13 на виході: OpenAI оновив голосовий стек для розробників

Аудіо версія новини

Слухати

OpenAI оголосив про запуск нових голосових функцій у своєму API для розробників. Йдеться про інструменти для розмов у реальному часі, перекладу та транскрипції. Про це пише Tech Crunсh.

Що сталося

OpenAI розширив свій API новою лінійкою аудіоінструментів. Компанія представила три ключові продукти: GPT-Realtime-2 для голосових розмов, GPT-Realtime-Translate для перекладу в реальному часі та GPT-Realtime-Whisper для live-транскрипції.

GPT-Realtime-2 — це нова голосова модель для більш природного спілкування з користувачами. На відміну від попередньої версії GPT-Realtime-1.5, вона отримала міркування класу GPT-5. У компанії кажуть, що це має покращити роботу зі складнішими запитами й зробити голосові інтерфейси корисними в роботі.

Окремо OpenAI запустив GPT-Realtime-Translate. Модель призначена для перекладу розмов на ходу і, за задумом компанії, має «не відставати» від співрозмовника. Сервіс підтримує понад 70 мов введення та 13 мов виводу. Тобто він може розуміти значно більше мов, ніж відтворювати голосом.

Третє оновлення — GPT-Realtime-Whisper. Це інструмент для перетворення мовлення в текст у реальному часі. Його можна використовувати там, де важливо одразу фіксувати сказане під час розмови, дзвінка чи події.

Нещодавно ми писали, що нові ШІ-моделі від OpenAI отримали сувору заборону згадувати гоблінів, гремлінів, єнотів, тролів, огрів та голубів, якщо це не є абсолютно необхідним для відповіді на запит користувача. Йдеться про такі продукти компанії, як інструмент програмування Codex та моделі GPT-5.5. 

Чому це цікаво

OpenAI рухається до того, щоб голос став повноцінним інтерфейсом для продуктів. Ідея в тому, що бот має не лише відповідати, а й слухати, перекладати, фіксувати зміст розмови та реагувати по ходу діалогу. Вони стануть у нагоді компаніям у сферах обслуговування клієнтів, освіти, медіа, створення контенту та проведення заходів. 

Для запобігання таким зловживанням як спам чи шахрайство, OpenAI вбудувала механізми захисту, які автоматично переривають розмови, якщо ті порушують політику щодо шкідливого контенту. Всі нові моделі доступні в рамках Realtime API: функції Translate та Whisper тарифікуються похвилинно, тоді як плата за використання GPT-Realtime-2 стягується за кількість спожитих токенів. 

Нагадаємо, нещодавно Amazon інтегрувала ШІ-інструменти від OpenAI на свої платформи, одразу після скасування домовленостей з Microsoft. Тепер сервіс розробки ШІ-застосунків Amazon Bedrock охоплює найновіші моделі OpenAI, інструмент для написання коду Codex, а також новий сервіс для створення ШІ-агентів — Bedrock Managed Agents, спеціально оптимізований для моделей міркування від OpenAI.

ЧИТАЙТЕ ТАКОЖ

НОВИНИ
Google дозволить кандидатам користуватися Gemini на технічних співбесідах

08 Травня 2026, 11:09

БІЗНЕС
Профайл Гаррі Селфріджа. Людина, яка 100 років тому перетворила ТРЦ на шоу-бізнес, а потім померла у боргах

08 Травня 2026, 08:34

НОВИНИ
Boosta запустила SEO-спринт для джунів із оплатою та шансом на офер

07 Травня 2026, 19:04

Борщ
Пиво до книжки, квадратна паска і 1,5 млн грн на регіональну журналістику. Що робили українські бренди разом у квітні

07 Травня 2026, 19:00

НОВИНИ
HIMERA запустила виробництво нових ретрансляторів R1 — фото

07 Травня 2026, 18:02

НОВИНИ
Ціни на хліб та паливо зростають: що подорожчало в Україні у квітні 2026-го

07 Травня 2026, 17:17

НОВИНИ
McDonald’s показав зростання прибутку: виторг і продажі перевищили прогнози

07 Травня 2026, 15:15

НОВИНИ
Уряд оновив «Власну Справу»: скільки грошей дадуть бізнесам у 2026-му

07 Травня 2026, 13:46

НОВИНИ
Спаму стане менше? Google загрожує штраф ЄС

07 Травня 2026, 12:31

НОВИНИ
Apple виплатить $250 млн компенсації за оманливу рекламу — що відомо

07 Травня 2026, 11:00