Представляємо OpenAI o3 та o4-mini

Сьогодні ми представляємо новітні моделі OpenAI o3 та o4-mini, які є частиною нашої серії моделей o. Ці моделі навчені довше роздумувати перед тим, як відповісти. Вони є найрозумнішими моделями, які ми випустили на сьогоднішній день, і представляють величезний крок вперед у можливостях ChatGPT для користувачів і дослідників. Вперше наші моделі розуміння можуть агентно використовувати та поєднувати всі інструменти ChatGPT, зокрема пошук в інтернеті, аналіз завантажених файлів та інших даних за допомогою Python, глибоке міркування щодо візуальних входів і навіть створення зображень.

Ці моделі навчені не лише розуміти, коли та як використовувати інструменти для створення детальних та обдуманих відповідей у відповідних форматах. Вони вирішують складні проблеми зазвичай менш ніж за хвилину, що дозволяє ефективно працювати з багатогранними запитами. Це відкриває нові можливості для ChatGPT, щоб діяти самостійно, виконуючи завдання за вас.

Що змінилося в нових моделях?

OpenAI o3 — наша найпотужніша модель для розумових процесів, яка встановлює нові стандарти у таких сферах, як програмування, математика, наука, візуальне сприйняття тощо. Вона встановила новий рекорд на таких бенчмарках, як Codeforces, SWE-bench (без створення спеціальної моделі) і MMMU. Ось чому ця модель ідеально підходить для складних запитів, які потребують багатогранного аналізу та де відповіді не очевидні з першого погляду. Вона показує особливі результати у візуальних завданнях, таких як аналіз зображень, діаграм та графіків.

У порівнянні з попередньою моделлю o1, o3 робить на 20% менше серйозних помилок у складних реальних завданнях, особливо у таких сферах, як програмування, бізнес/консалтинг та креативне ідеювання. Ранні тестувальники підкреслюють її аналітичну точність як партнера для роздумів, а також здатність генерувати та критично оцінювати нові гіпотези, зокрема в контекстах біології, математики та інженерії.

OpenAI o4-mini — це менша модель, оптимізована для швидкого та ефективного міркування. Вона досягає відмінних результатів, особливо в математиці, програмуванні та візуальних завданнях. Вона є найкращою моделью за результатами бенчмарків AIME 2024 і 2025. Хоча доступ до комп’ютера зменшує складність іспиту AIME, o4-mini досягає 99,5% pass@1 (100% consensus@8) на AIME 2025 при наявності доступу до Python інтерпретатора.

У порівнянні з попередником, o4-mini також показує кращі результати в не-STEM задачах і в таких областях, як дата-наука. Завдяки своїй ефективності, o4-mini підтримує значно більші ліміти використання, ніж o3, що робить її сильною опцією для великих обсягів завдань, які потребують розумового аналізу.

Як масштабування та підвищена інтелектуальність впливають на ефективність?

Протягом розробки OpenAI o3 ми спостерігали, що великомасштабне навчання з підкріпленням демонструє ту ж тенденцію, що і у GPT-серіях: чим більше обчислювальних потужностей — тим кращі результати. Ось чому ми змогли досягти значного покращення продуктивності при рівному латентному часі та вартості з OpenAI o1. В разі, якщо модель має більше часу для роздумів, її результати продовжують покращуватися.

Ми також навчили обидві моделі використовувати інструменти через підкріплене навчання — це означає, що вони не лише вміють використовувати інструменти, а й здатні обдумувати, коли і як їх використовувати для досягнення бажаних результатів.

Міркування з зображеннями

Вперше ці моделі можуть інтегрувати зображення безпосередньо в процес міркувань. Вони не просто бачать зображення, вони думають разом з ним. Це відкриває нові можливості для вирішення задач, які поєднують візуальне та текстове розуміння.

Користувачі можуть завантажити фото, діаграму з підручника або малюнок, і модель зможе інтерпретувати його, навіть якщо зображення нечітке, перевернуте або низької якості. З інструментами ці моделі можуть маніпулювати зображеннями, обертати, масштабувати або трансформувати їх у процесі розумування.

Повний доступ до інструментів та розширене використання

OpenAI o3 та o4-mini мають повний доступ до інструментів ChatGPT, а також до ваших власних інструментів через виклики функцій в API. Моделі навчені розуміти, як вирішувати завдання, вибираючи, коли і як використовувати інструменти для створення детальних та обдуманих відповідей у відповідних форматах швидко — зазвичай менше ніж за хвилину.

Цей гнучкий, стратегічний підхід дозволяє моделям виконувати завдання, які потребують доступу до актуальної інформації, розширеного розумування, синтезу та генерації результатів через різні модальності.

Безпека та ефективність

Оскільки кожне покращення в можливостях моделей потребує відповідних поліпшень в безпеці, ми повністю оновили наші дані для навчання безпеці, додавши нові відмови в таких сферах, як біологічні загрози, генерація шкідливих програм та jailbreak-и. Ці нові дані дозволяють o3 та o4-mini досягати високих результатів на наших внутрішніх відмовних бенчмарках.

Ми також протестували обидві моделі з нашою найбільш суворою програмою безпеки до сьогоднішнього дня.

Author

Zakhar Vovk

Zakhar Vovk - провідний експерт у сфері штучного інтелекту та дослідник сучасних AI-технологій на платформі чатгпт.net. Його робота зосереджена на вивченні інтелектуальних мовних моделей, оптимізації алгоритмів машинного навчання та впровадженні штучного інтелекту в повсякденне життя. Завдяки глибоким знанням, практичному досвіду та пристрасті до інновацій, Закар ділиться авторитетними аналітичними статтями, гайдами та науковими оглядами, які допомагають користувачам зрозуміти потенціал і обмеження сучасного AI.