Новая языковая модель OpenAI основана на предыдущей структуре GPT-4, но расширяется и улучшается в процессе обучения. Хотя GPT-4.5 и не является самым продвинутым, он может похвастаться большими знаниями, улучшенными навыками письма и более утонченной индивидуальностью, чем его предшественник.
Согласно данным тестов, GPT-4.5 представляет собой скромное обновление по сравнению с GPT-4. В тесте SWE-bench Verified модель достигла 38%, что на 2–7% лучше, чем GPT-4, но все еще на 30% ниже, чем глубинное обучение на базе o3 от OpenAI. Для сравнения, модель Claude 3.7 Sonnet компании Anthropic достигает эффективности 62,3% на том же тесте. В тесте точности SimpleQA результат GPT-4.5 составил 62,5%, тогда как у GPT-4 он составил 38,2%. Однако в тесте Hallucination Rate от SimpleQA GPT-4.5 показывает самые низкие результаты среди крупных языковых моделей OpenAI.
Соответствие новым стандартам OpenAI
Недавно группа специалистов OpenAI по готовности разработала новый бенчмарк под названием SWE-Lancer для оценки производительности больших языковых моделей при решении реальных задач по разработке программного обеспечения, таких как разработка функций и исправление ошибок. В этом тесте GPT-4.5 может решить 20% задач IC SWE и 44% задач SWE Manager, что является небольшим улучшением по сравнению с предыдущей моделью.
С точки зрения безопасности консультативная группа по безопасности OpenAI классифицировала GPT-4.5 как имеющую средний уровень риска с низкими оценками в областях кибербезопасности и автономности модели.
Пользователи ChatGPT Pro теперь могут ознакомиться с предварительной версией модели GPT-4.5 с помощью средства выбора модели в веб-версии, на мобильных устройствах и на настольных компьютерах. Эта модель поддерживает поиск, загрузку файлов, изображений и функции холста на ChatGPT. В будущем будут добавлены мультимодальные функции, такие как голосовой режим, видео и совместное использование экрана.
GPT-4.5 будет официально доступен на следующей неделе для пользователей ChatGPT Plus и Teams, а также для всех платных разработчиков через API Chat Completions, Assistants API и Batch API с такими примечательными функциями, как вызовы функций, структурированные выходные данные, потоковая передача и системные сообщения.
Комментарий (0)