НОВИНИ

70 мов на вході й 13 на виході: OpenAI оновив голосовий стек для розробників

Аудіо версія новини

Слухати

OpenAI оголосив про запуск нових голосових функцій у своєму API для розробників. Йдеться про інструменти для розмов у реальному часі, перекладу та транскрипції. Про це пише Tech Crunсh.

Що сталося

OpenAI розширив свій API новою лінійкою аудіоінструментів. Компанія представила три ключові продукти: GPT-Realtime-2 для голосових розмов, GPT-Realtime-Translate для перекладу в реальному часі та GPT-Realtime-Whisper для live-транскрипції.

GPT-Realtime-2 — це нова голосова модель для більш природного спілкування з користувачами. На відміну від попередньої версії GPT-Realtime-1.5, вона отримала міркування класу GPT-5. У компанії кажуть, що це має покращити роботу зі складнішими запитами й зробити голосові інтерфейси корисними в роботі.

Окремо OpenAI запустив GPT-Realtime-Translate. Модель призначена для перекладу розмов на ходу і, за задумом компанії, має «не відставати» від співрозмовника. Сервіс підтримує понад 70 мов введення та 13 мов виводу. Тобто він може розуміти значно більше мов, ніж відтворювати голосом.

Третє оновлення — GPT-Realtime-Whisper. Це інструмент для перетворення мовлення в текст у реальному часі. Його можна використовувати там, де важливо одразу фіксувати сказане під час розмови, дзвінка чи події.

Нещодавно ми писали, що нові ШІ-моделі від OpenAI отримали сувору заборону згадувати гоблінів, гремлінів, єнотів, тролів, огрів та голубів, якщо це не є абсолютно необхідним для відповіді на запит користувача. Йдеться про такі продукти компанії, як інструмент програмування Codex та моделі GPT-5.5. 

Чому це цікаво

OpenAI рухається до того, щоб голос став повноцінним інтерфейсом для продуктів. Ідея в тому, що бот має не лише відповідати, а й слухати, перекладати, фіксувати зміст розмови та реагувати по ходу діалогу. Вони стануть у нагоді компаніям у сферах обслуговування клієнтів, освіти, медіа, створення контенту та проведення заходів. 

Для запобігання таким зловживанням як спам чи шахрайство, OpenAI вбудувала механізми захисту, які автоматично переривають розмови, якщо ті порушують політику щодо шкідливого контенту. Всі нові моделі доступні в рамках Realtime API: функції Translate та Whisper тарифікуються похвилинно, тоді як плата за використання GPT-Realtime-2 стягується за кількість спожитих токенів. 

Нагадаємо, нещодавно Amazon інтегрувала ШІ-інструменти від OpenAI на свої платформи, одразу після скасування домовленостей з Microsoft. Тепер сервіс розробки ШІ-застосунків Amazon Bedrock охоплює найновіші моделі OpenAI, інструмент для написання коду Codex, а також новий сервіс для створення ШІ-агентів — Bedrock Managed Agents, спеціально оптимізований для моделей міркування від OpenAI.

ЧИТАЙТЕ ТАКОЖ

FOMO OFF
Феномен Cowboys: як коштувати $13 мільярдів без жодної перемоги за 30 років

30 Травня 2026, 13:34

НОВИНИ
6 фільмів про Київ — добірка до Дня міста

30 Травня 2026, 09:00

НОВИНИ
СЕО OpenAI назвав сфери, де людський контакт поки сильніший за ШІ

29 Травня 2026, 19:20

Борщ
Бігові кросівки, які не можна купити, дармовис із 3D-друку дронів і адаптивний одяг для ветеранів. Що робили українські бренди разом у травні

29 Травня 2026, 19:00

НОВИНИ
Роналду, Мессі, Джеймс: хто увійшов до рейтингу Forbes із доходом понад $100 млн

29 Травня 2026, 18:34

НОВИНИ
Google пом’якшила ліміти Gemini: складні запити більше не з’їдатимуть увесь ліміт

29 Травня 2026, 16:28

НОВИНИ
YouTube зробила подкасти зручнішими для прослуховування в русі

29 Травня 2026, 14:59

БІЗНЕС
Що реально утримує людей в ІT-компаніях: досвід SharksCode

29 Травня 2026, 14:00

НОВИНИ
Dell різко підвищила прогноз через AI-сервери Nvidia — акції стрибнули на 40%

29 Травня 2026, 13:08

НОВИНИ
В Європі під час рейду вилучили 800 серверів для російських кібератак

29 Травня 2026, 12:14