Ми відкотили оновлення GPT‑4o, яке було запущено минулого тижня в ChatGPT, тому зараз користувачі працюють з попередньою версією, яка має більш збалансовану поведінку. Оновлення, яке ми прибрали, було надмірно лестяче або угодницьке—часто його описують як сифонове.
Ми активно тестуємо нові рішення для вирішення цієї проблеми. Ми переглядаємо, як ми збираємо та враховуємо відгуки, щоб більше зосереджуватися на довгостроковому задоволенні користувачів, а також вводимо більше функцій персоналізації, даючи користувачам більший контроль над поведінкою ChatGPT.
Ми хочемо пояснити, що сталося, чому це важливо і як ми працюємо над виправленням сифофії.
Що сталося
В оновленні GPT‑4o, яке було випущено минулого тижня, ми внесли коригування, спрямовані на покращення стандартної особистості моделі, щоб вона була більш інтуїтивно зрозумілою та ефективною при виконанні різних завдань.
При формуванні поведінки моделі ми починаємо з основних принципів та інструкцій, викладених у нашій Моделі Специфікацій. Ми також навчаємо наші моделі, як застосовувати ці принципи, враховуючи сигнали від користувачів, такі як відгуки “подобається/не подобається” на відповіді ChatGPT.
Однак в цьому оновленні ми надто зосередилися на короткострокових відгуках і не врахували, як взаємодії користувачів з ChatGPT змінюються з часом. Як наслідок, GPT‑4o схилилася до надмірно підтримуючих, але нещирих відповідей.
Чому це важливо
Стандартна особистість ChatGPT глибоко впливає на досвід користувачів і довіру до нього. Сифонічні взаємодії можуть бути незручними, турбуючими та викликати стрес. Ми не досягли належного рівня і зараз працюємо над виправленням ситуації.
Наша мета полягає в тому, щоб ChatGPT допомагав користувачам досліджувати ідеї, приймати рішення або уявляти можливості.
Ми розробили стандартну особистість ChatGPT так, щоб вона відображала нашу місію і була корисною, підтримуючою та поважала різні цінності та досвід. Однак кожна з цих бажаних якостей, як намагання бути корисним або підтримуючим, може мати непередбачувані побічні ефекти. І оскільки 500 мільйонів людей використовують ChatGPT щотижня в різних культурах і контекстах, єдиний стандарт не може відобразити всі переваги користувачів.
Як ми працюємо над виправленням сифофії
Крім скасування останнього оновлення GPT‑4o, ми вживаємо додаткові кроки для вирівнювання поведінки моделі:
- Вдосконалення основних методик навчання та системних підказок для явного відхилення моделі від сифофії.
- Створення додаткових бар’єрів для підвищення чесності та прозорості, згідно з принципами нашої Моделі Специфікацій.
- Розширення можливостей для більшої кількості користувачів тестувати та надавати прямі відгуки до випуску.
- Продовження розширення наших оцінок, базуючись на Моделі Специфікацій та нашому поточному дослідженні, для виявлення проблем, крім сифофії, в майбутньому.
Ми також вважаємо, що користувачі повинні мати більше контролю над поведінкою ChatGPT, і, якщо це безпечно та доцільно, мати можливість коригувати її, якщо вони не згодні з поведінкою за замовчуванням.
Сьогодні користувачі можуть давати моделі конкретні інструкції для формування її поведінки за допомогою функцій, таких як індивідуальні налаштування. Ми також розробляємо нові, більш прості способи для користувачів робити це. Наприклад, користувачі зможуть надавати відгуки в реальному часі, щоб безпосередньо впливати на свої взаємодії та обирати з кількох стандартних особистостей.
Також ми вивчаємо нові способи інтеграції більш широких, демократичних відгуків у стандартну поведінку ChatGPT. Сподіваємося, що ці відгуки допоможуть нам краще відображати різноманітні культурні цінності по всьому світу і зрозуміти, як ви хочете, щоб ChatGPT розвивався — не лише в кожній окремій взаємодії, але й з часом.
Ми вдячні всім, хто висловив свою думку з цього приводу. Це допомагає нам створювати більш корисні та вдосконалені інструменти для вас.