Ми раді анонсувати запуск трьох нових моделей в API: GPT-4.1, GPT-4.1 mini та GPT-4.1 nano. Ці моделі значно перевершують GPT-4o та GPT-4o mini за всіма показниками, зокрема в обробці коду та виконанні інструкцій. Вони також мають більші вікна контексту (до 1 мільйона токенів) та покращену здатність обробляти довгий контекст. Крім того, моделі мають оновлену дату відсічення знань до червня 2024 року.
Високі результати GPT-4.1 за ключовими показниками:
- Кодування: GPT-4.1 досягає результату 54.6% на SWE-bench Verified, що є на 21.4% кращим за GPT-4o і на 26.6% кращим за GPT-4.5, що робить цю модель лідером у сфері кодування.
- Виконання інструкцій: За результатами бенчмарку MultiChallenge, GPT-4.1 отримує 38.3%, що на 10.5% краще за GPT-4o.
- Довгий контекст: У тесті Video-MME для мультимодального розуміння довгого контексту GPT-4.1 встановлює новий рекорд, досягши 72.0% в категорії “довгий контекст без субтитрів”, що на 6.7% краще за GPT-4o.
Незважаючи на значення бенчмарків, ми фокусувалися на реальній корисності моделей. Тісна співпраця з розробниками дозволила оптимізувати ці моделі для найважливіших завдань у реальному застосуванні.
Зниження вартості та латентності
GPT-4.1 дозволяє досягти значних поліпшень у продуктивності при зниженні вартості. Моделі забезпечують високу ефективність на всіх етапах кривої латентності.
GPT-4.1 mini
GPT-4.1 mini показує значний приріст у продуктивності для малих моделей, часто перевершуючи GPT-4o в багатьох бенчмарках. Крім того, цей варіант зменшує латентність майже вдвічі та знижує вартість на 83%.
GPT-4.1 nano
Для завдань, які вимагають низької латентності, GPT-4.1 nano — це наша найшвидша та найекономніша модель. Вона забезпечує надзвичайну продуктивність за малих розмірів, підтримуючи контекст у 1 мільйон токенів і досягаючи 80.1% на MMLU, 50.3% на GPQA, та 9.8% на Aider polyglot coding, перевищуючи навіть GPT-4o mini. Це ідеальна модель для завдань, таких як класифікація або автозаповнення.
Застосування для агентів і систем, що виконують завдання
Поліпшення в точності виконання інструкцій та розумінні довгого контексту робить GPT-4.1 значно ефективнішою в створенні агентів та систем, що можуть виконувати завдання самостійно. Завдяки таким інструментам, як Responses API, розробники можуть створювати агентів, які ефективно справляються з реальними задачами, такими як обробка великих документів або вирішення запитів клієнтів без постійного втручання.
Доступність моделей
Моделі GPT-4.1 доступні тільки через API. В ChatGPT багато покращень у виконанні інструкцій, кодуванні та інтелекту вже поступово інтегруються в останню версію GPT-4o, і ми будемо продовжувати впроваджувати нові покращення в майбутніх випусках.
Ми також почнемо припиняти підтримку GPT-4.5 Preview в API, оскільки GPT-4.1 пропонує кращі або подібні показники на багатьох важливих можливостях при значно нижчій вартості та латентності. GPT-4.5 Preview буде вимкнено через три місяці, 14 липня 2025 року, щоб дати розробникам час на перехід.
Покращення в кодуванні та виконанні інструкцій
GPT-4.1 значно перевершує GPT-4o в різних завданнях, включаючи агентне розв’язування задач, фронтенд-кодування та зменшення кількості зайвих правок. Наприклад, на SWE-bench Verified GPT-4.1 завершує 54.6% завдань порівняно з 33.2% у GPT-4o.
Результати SWE-bench Verified:
- GPT-4.1: 54.6%
- GPT-4o: 33.2%
Покращення виконання інструкцій
GPT-4.1 значно покращено в плані виконання інструкцій, особливо у складних сценаріях. Наприклад, на бенчмарку MultiChallenge GPT-4.1 отримує 38.3%, що на 10.5% більше, ніж GPT-4o. Це забезпечує надійніше виконання інструкцій в реальних сценаріях.
Моделі з довгим контекстом
GPT-4.1, GPT-4.1 mini та GPT-4.1 nano можуть обробляти до 1 мільйона токенів контексту, що є значним поліпшенням порівняно з попередніми моделями, які підтримували лише 128 000 токенів. Ці моделі чудово підходять для обробки великих кодових баз або довгих документів.
Результати для реальних прикладів
Тести з партнерами, такими як Windsurf, Qodo, Hex, Blue J, Thomson Reuters та Carlyle, показали, що GPT-4.1 значно перевершує попередні моделі у виробничих умовах при виконанні специфічних завдань.
Заключення
GPT-4.1 є значним кроком вперед у практичному застосуванні штучного інтелекту. Завдяки фокусу на реальних потребах розробників — від кодування до виконання інструкцій та розуміння довгого контексту — ці моделі відкривають нові можливості для створення інтелектуальних систем та складних агентних додатків. Ми продовжуємо надихатися творчістю розробницької спільноти і з нетерпінням чекаємо, що ви створите з GPT-4.1.