Ми представляємо нові аудіо-моделі для підтримки голосових агентів, які тепер доступні для розробників по всьому світу.
Останні кілька місяців ми інвестували в удосконалення інтелекту, можливостей та корисності текстових агентів—систем, які незалежно виконують завдання для користувачів, з випусками таких продуктів, як Operator, Deep Research, Computer-Using Agents та API для відповідей з вбудованими інструментами. Однак для того, щоб агенти стали справжньо корисними, користувачі повинні мати можливість взаємодіяти з ними більш інтуїтивно та глибше, ніж просто через текст, використовуючи природну мову для ефективного спілкування.
Сьогодні ми запускаємо нові моделі “перетворення мови в текст” (speech-to-text) та “перетворення тексту в мову” (text-to-speech) в API, що дозволяє створювати потужних, налаштовуваних і розумних голосових агентів, які дійсно приносять користь. Наші останні моделі “перетворення мови в текст” встановлюють новий еталон, перевершуючи існуючі рішення в точності та надійності—особливо в складних сценаріях, що включають акценти, шумні умови та змінні швидкості мовлення. Ці покращення збільшують надійність транскрипцій, роблячи моделі особливо підходящими для таких випадків, як обслуговування клієнтів, транскрипція зустрічей та інші.
Вперше розробники можуть також налаштовувати модель “перетворення тексту в мову”, щоб вона говорила певним чином—наприклад, “говори як співчутливий агент з обслуговування клієнтів”—що відкриває новий рівень персоналізації голосових агентів. Це дозволяє створювати широкий спектр індивідуальних застосувань, від більш емоційних і динамічних голосів для обслуговування клієнтів до виразного наративу для творчих історій.
Ми запустили нашу першу аудіо-модель у 2022 році, і з того часу ми продовжуємо працювати над поліпшенням інтелекту, точності та надійності цих моделей. Завдяки новим аудіо-моделям розробники можуть створювати більш точні та надійні системи “перетворення мови в текст” та виразні, емоційно насичені голоси “перетворення тексту в мову” — все це в межах API.
Детальніше про наші останні аудіо-моделі
Нові моделі “перетворення мови в текст”
Ми представляємо нові моделі gpt-4o-transcribe та gpt-4o-mini-transcribe з покращенням показників помилки слів (Word Error Rate, WER) і кращим розпізнаванням мов та точністю, порівняно з оригінальними моделями Whisper.
Модель gpt-4o-transcribe демонструє покращену продуктивність по WER порівняно з існуючими моделями Whisper за численними стандартними тестами, що свідчить про значний прогрес у нашій технології “перетворення мови в текст”. Ці досягнення є результатом цілеспрямованих інновацій у зміцненні навчання та ретельного середнього навчання на різноманітних високоякісних аудіо-даних.
Як результат, ці нові моделі можуть краще захоплювати нюанси мови, знижувати кількість помилок розпізнавання і підвищувати надійність транскрипції, особливо в складних умовах, таких як акценти, шумні середовища та змінні швидкості мовлення. Ці моделі вже доступні в API для “перетворення мови в текст”.
Нова модель “перетворення тексту в мову”
Ми також запускаємо нову модель gpt-4o-mini-tts з кращою керованістю. Вперше розробники можуть “наказати” моделі не лише те, що сказати, але й як це сказати—це дозволяє створювати ще більш налаштовані досвіди для таких застосувань, як обслуговування клієнтів або творчі наративи. Модель доступна в API для “перетворення тексту в мову”. Зверніть увагу, що ці моделі обмежені штучними заздалегідь заданими голосами, які ми контролюємо, щоб забезпечити відповідність штучним пресетам.
Технічні інновації за моделями
Переднавчання з автентичними аудіо-даними
Наші нові аудіо-моделі будуються на архітектурах GPT‑4o та GPT‑4o-mini і проходять інтенсивне переднавчання на спеціалізованих аудіо-центрованих наборах даних, що є критично важливим для оптимізації продуктивності моделей. Цей цілеспрямований підхід дає глибше розуміння нюансів мовлення та забезпечує відмінну продуктивність у всіх аудіо-завданнях.
Розширені методи дистиляції
Ми вдосконалили наші техніки дистиляції, що дозволяє передавати знання від наших найбільших аудіо-моделей до менших, більш ефективних моделей. Використовуючи передові методи самоігор, наші дистиляційні набори даних ефективно відтворюють реалістичну динаміку бесіди, реплікуючи справжні взаємодії між користувачем та асистентом. Це допомагає нашим меншим моделям забезпечити чудову якість і відгук у розмовах.
Парадигма навчання з підкріпленням
Для наших моделей “перетворення мови в текст” ми інтегрували парадигму навчання з підкріпленням (RL), що суттєво покращує точність транскрипції на рівні сучасних досягнень. Ця методологія значно підвищує точність і знижує ймовірність помилок, роблячи наші рішення для “перетворення мови в текст” надзвичайно конкурентоспроможними в складних сценаріях розпізнавання мовлення.
Ці розробки є прогресом у галузі аудіо-моделювання, поєднуючи інноваційні методи з практичними покращеннями для підвищення ефективності в аудіо-застосуваннях.
Доступність API
Ці нові аудіо-моделі вже доступні для всіх розробників—детальніше про розробку з аудіо за посиланням. Для розробників, які вже створюють розмовні досвіди за допомогою текстових моделей, додавання наших моделей “перетворення мови в текст” та “перетворення тексту в мову” є найпростішим способом створення голосових агентів. Ми випускаємо інтеграцію з SDK для агентів, що спрощує цей процес розробки. Для розробників, які бажають створювати низьколатентні досвіди “мова в мова”, ми рекомендуємо використовувати наші моделі “мова в мову” в Realtime API.
Що далі
Ми плануємо продовжити інвестувати в удосконалення інтелекту та точності наших аудіо-моделей, а також досліджувати можливості для розробників по створенню власних кастомних голосів для ще більш персоналізованих досвідів, що відповідають нашим стандартам безпеки. Крім того, ми продовжуємо працювати з політиками, дослідниками, розробниками та творчими людьми, обговорюючи виклики та можливості, які можуть виникнути через штучні голоси. Ми з нетерпінням чекаємо, щоб побачити інноваційні та творчі застосування, які розробники створять, використовуючи ці удосконалені аудіо можливості. Також ми будемо інвестувати в інші модальності, включаючи відео, щоб надати розробникам можливість створювати мультимодальні агентські досвіди.