OpenAI оголосив про запуск нових голосових функцій у своєму API для розробників. Йдеться про інструменти для розмов у реальному часі, перекладу та транскрипції. Про це пише Tech Crunсh.
Що сталося
OpenAI розширив свій API новою лінійкою аудіоінструментів. Компанія представила три ключові продукти: GPT-Realtime-2 для голосових розмов, GPT-Realtime-Translate для перекладу в реальному часі та GPT-Realtime-Whisper для live-транскрипції.
GPT-Realtime-2 — це нова голосова модель для більш природного спілкування з користувачами. На відміну від попередньої версії GPT-Realtime-1.5, вона отримала міркування класу GPT-5. У компанії кажуть, що це має покращити роботу зі складнішими запитами й зробити голосові інтерфейси корисними в роботі.
Окремо OpenAI запустив GPT-Realtime-Translate. Модель призначена для перекладу розмов на ходу і, за задумом компанії, має «не відставати» від співрозмовника. Сервіс підтримує понад 70 мов введення та 13 мов виводу. Тобто він може розуміти значно більше мов, ніж відтворювати голосом.
Третє оновлення — GPT-Realtime-Whisper. Це інструмент для перетворення мовлення в текст у реальному часі. Його можна використовувати там, де важливо одразу фіксувати сказане під час розмови, дзвінка чи події.
Нещодавно ми писали, що нові ШІ-моделі від OpenAI отримали сувору заборону згадувати гоблінів, гремлінів, єнотів, тролів, огрів та голубів, якщо це не є абсолютно необхідним для відповіді на запит користувача. Йдеться про такі продукти компанії, як інструмент програмування Codex та моделі GPT-5.5.
Чому це цікаво
OpenAI рухається до того, щоб голос став повноцінним інтерфейсом для продуктів. Ідея в тому, що бот має не лише відповідати, а й слухати, перекладати, фіксувати зміст розмови та реагувати по ходу діалогу. Вони стануть у нагоді компаніям у сферах обслуговування клієнтів, освіти, медіа, створення контенту та проведення заходів.
Для запобігання таким зловживанням як спам чи шахрайство, OpenAI вбудувала механізми захисту, які автоматично переривають розмови, якщо ті порушують політику щодо шкідливого контенту. Всі нові моделі доступні в рамках Realtime API: функції Translate та Whisper тарифікуються похвилинно, тоді як плата за використання GPT-Realtime-2 стягується за кількість спожитих токенів.
Нагадаємо, нещодавно Amazon інтегрувала ШІ-інструменти від OpenAI на свої платформи, одразу після скасування домовленостей з Microsoft. Тепер сервіс розробки ШІ-застосунків Amazon Bedrock охоплює найновіші моделі OpenAI, інструмент для написання коду Codex, а також новий сервіс для створення ШІ-агентів — Bedrock Managed Agents, спеціально оптимізований для моделей міркування від OpenAI.