OpenAI의 새로운 언어 모델은 기존 GPT-4 프레임워크를 기반으로 하지만 학습 과정에서 확장되고 개선되었습니다. GPT-4.5는 가장 발전된 버전은 아니지만 이전 버전보다 더 많은 지식, 향상된 글쓰기 기술, 더 세련된 개성을 자랑합니다.
벤치마크 데이터에 따르면 GPT-4.5는 GPT-4에 비해 약간 향상된 업그레이드입니다. SWE-bench Verified 벤치마크에서 이 모델은 38%의 성과를 달성했는데, 이는 GPT-4보다 2-7% 향상된 수치이지만 OpenAI의 o3 기반 딥 러닝보다 30% 낮은 수준입니다. 비교를 위해, Anthropic의 Claude 3.7 Sonnet 모델은 동일한 벤치마크에서 62.3%의 효율성을 달성했습니다. SimpleQA의 정확도 벤치마크에서 GPT-4.5는 62.5%를 기록했고, GPT-4는 38.2%를 기록했습니다. 하지만 SimpleQA의 Hallucination Rate 벤치마크에서 GPT-4.5는 OpenAI의 대규모 언어 모델 중 가장 낮은 점수를 받았습니다.
OpenAI의 새로운 표준 충족
최근 OpenAI의 Preparedness 팀은 SWE-Lancer라는 새로운 벤치마크를 개발하여 기능 개발 및 버그 수정과 같은 실제 소프트웨어 엔지니어링 작업에서 대규모 언어 모델의 성능을 평가했습니다. 이 벤치마크에서 GPT-4.5는 IC SWE 작업의 20%, SWE Manager 작업의 44%를 해결할 수 있었으며, 이는 이전 모델에 비해 약간 향상된 수치입니다.
안전성 측면에서 OpenAI의 안전 자문 그룹은 GPT-4.5를 중간 위험 수준으로 분류했으며, 사이버 보안과 모델 자율성 분야에서 낮은 점수를 받았습니다.
ChatGPT Pro 사용자는 이제 웹, 모바일, 데스크톱의 모델 선택기를 통해 GPT-4.5 모델을 미리 볼 수 있습니다. 이 모델은 ChatGPT에서 파일, 이미지 검색, 다운로드 및 캔버스 기능을 지원합니다. 음성 모드, 비디오 및 화면 공유와 같은 다중 모드 기능이 향후 추가될 예정입니다.
GPT-4.5는 다음 주부터 ChatGPT Plus와 Teams 사용자, 그리고 모든 유료 개발자를 대상으로 Chat Completions API, Assistants API, Batch API를 통해 공식적으로 출시될 예정이며, 함수 호출, 구조화된 출력, 스트리밍, 시스템 메시징과 같은 주요 기능이 추가될 예정입니다.
댓글 (0)