Представляємо GPT-4.1 в API

Ми раді анонсувати запуск трьох нових моделей в API: GPT-4.1, GPT-4.1 mini та GPT-4.1 nano. Ці моделі значно перевершують GPT-4o та GPT-4o mini за всіма показниками, зокрема в обробці коду та виконанні інструкцій. Вони також мають більші вікна контексту (до 1 мільйона токенів) та покращену здатність обробляти довгий контекст. Крім того, моделі мають оновлену дату відсічення знань до червня 2024 року.

Високі результати GPT-4.1 за ключовими показниками:

  • Кодування: GPT-4.1 досягає результату 54.6% на SWE-bench Verified, що є на 21.4% кращим за GPT-4o і на 26.6% кращим за GPT-4.5, що робить цю модель лідером у сфері кодування.
  • Виконання інструкцій: За результатами бенчмарку MultiChallenge, GPT-4.1 отримує 38.3%, що на 10.5% краще за GPT-4o.
  • Довгий контекст: У тесті Video-MME для мультимодального розуміння довгого контексту GPT-4.1 встановлює новий рекорд, досягши 72.0% в категорії “довгий контекст без субтитрів”, що на 6.7% краще за GPT-4o.

Незважаючи на значення бенчмарків, ми фокусувалися на реальній корисності моделей. Тісна співпраця з розробниками дозволила оптимізувати ці моделі для найважливіших завдань у реальному застосуванні.

Зниження вартості та латентності

Представляємо GPT-4.1 в API

GPT-4.1 дозволяє досягти значних поліпшень у продуктивності при зниженні вартості. Моделі забезпечують високу ефективність на всіх етапах кривої латентності.

GPT-4.1 mini

GPT-4.1 mini показує значний приріст у продуктивності для малих моделей, часто перевершуючи GPT-4o в багатьох бенчмарках. Крім того, цей варіант зменшує латентність майже вдвічі та знижує вартість на 83%.

GPT-4.1 nano

Для завдань, які вимагають низької латентності, GPT-4.1 nano — це наша найшвидша та найекономніша модель. Вона забезпечує надзвичайну продуктивність за малих розмірів, підтримуючи контекст у 1 мільйон токенів і досягаючи 80.1% на MMLU, 50.3% на GPQA, та 9.8% на Aider polyglot coding, перевищуючи навіть GPT-4o mini. Це ідеальна модель для завдань, таких як класифікація або автозаповнення.

Застосування для агентів і систем, що виконують завдання

Поліпшення в точності виконання інструкцій та розумінні довгого контексту робить GPT-4.1 значно ефективнішою в створенні агентів та систем, що можуть виконувати завдання самостійно. Завдяки таким інструментам, як Responses API, розробники можуть створювати агентів, які ефективно справляються з реальними задачами, такими як обробка великих документів або вирішення запитів клієнтів без постійного втручання.

Доступність моделей

Моделі GPT-4.1 доступні тільки через API. В ChatGPT багато покращень у виконанні інструкцій, кодуванні та інтелекту вже поступово інтегруються в останню версію GPT-4o, і ми будемо продовжувати впроваджувати нові покращення в майбутніх випусках.

Ми також почнемо припиняти підтримку GPT-4.5 Preview в API, оскільки GPT-4.1 пропонує кращі або подібні показники на багатьох важливих можливостях при значно нижчій вартості та латентності. GPT-4.5 Preview буде вимкнено через три місяці, 14 липня 2025 року, щоб дати розробникам час на перехід.

Покращення в кодуванні та виконанні інструкцій

GPT-4.1 значно перевершує GPT-4o в різних завданнях, включаючи агентне розв’язування задач, фронтенд-кодування та зменшення кількості зайвих правок. Наприклад, на SWE-bench Verified GPT-4.1 завершує 54.6% завдань порівняно з 33.2% у GPT-4o.

Результати SWE-bench Verified:

  • GPT-4.1: 54.6%
  • GPT-4o: 33.2%

Покращення виконання інструкцій

GPT-4.1 значно покращено в плані виконання інструкцій, особливо у складних сценаріях. Наприклад, на бенчмарку MultiChallenge GPT-4.1 отримує 38.3%, що на 10.5% більше, ніж GPT-4o. Це забезпечує надійніше виконання інструкцій в реальних сценаріях.

Моделі з довгим контекстом

GPT-4.1, GPT-4.1 mini та GPT-4.1 nano можуть обробляти до 1 мільйона токенів контексту, що є значним поліпшенням порівняно з попередніми моделями, які підтримували лише 128 000 токенів. Ці моделі чудово підходять для обробки великих кодових баз або довгих документів.

Результати для реальних прикладів

Тести з партнерами, такими як Windsurf, Qodo, Hex, Blue J, Thomson Reuters та Carlyle, показали, що GPT-4.1 значно перевершує попередні моделі у виробничих умовах при виконанні специфічних завдань.

Заключення

GPT-4.1 є значним кроком вперед у практичному застосуванні штучного інтелекту. Завдяки фокусу на реальних потребах розробників — від кодування до виконання інструкцій та розуміння довгого контексту — ці моделі відкривають нові можливості для створення інтелектуальних систем та складних агентних додатків. Ми продовжуємо надихатися творчістю розробницької спільноти і з нетерпінням чекаємо, що ви створите з GPT-4.1.

Author

  • Zakhar Vovk author

    Zakhar Vovk - провідний експерт у сфері штучного інтелекту та дослідник сучасних AI-технологій на платформі чатгпт.net. Його робота зосереджена на вивченні інтелектуальних мовних моделей, оптимізації алгоритмів машинного навчання та впровадженні штучного інтелекту в повсякденне життя. Завдяки глибоким знанням, практичному досвіду та пристрасті до інновацій, Закар ділиться авторитетними аналітичними статтями, гайдами та науковими оглядами, які допомагають користувачам зрозуміти потенціал і обмеження сучасного AI.

Leave a Comment

Your email address will not be published. Required fields are marked *

Scroll to Top