스탠퍼드 대학교와 캘리포니아 대학교 버클리 캠퍼스의 연구진이 OpenAI의 AI 챗봇인 ChatGPT에 대한 연구를 수행한 결과, 최신 모델이 몇 달 동안 정확한 답변을 제공하는 능력이 저하되고 있다는 사실을 발견했습니다. 이 연구는 수학적 문제 해결, 민감한 질문에 대한 답변, 코드 작성, 공간 추론 작업 수행에서 ChatGPT -3.5 및 ChatGPT-4 모델의 성능을 비교했습니다. 놀랍게도 ChatGPT-4의 소수 식별 정확도는 3월 97.6%에서 6월에는 2.4%에 불과했습니다.
반면, 이전 버전의 GPT-3.5 모델은 같은 기간 동안 소수 식별 기능이 개선된 것으로 나타났습니다. 또한 두 ChatGPT 모델 모두 3월과 6월 사이에 새로운 코드 라인을 생성하는 능력이 크게 저하되었습니다. 연구진은 또한 민감한 질문에 대한 챗봇의 응답이 변화하는 것을 관찰했는데, 최신 모델은 답변을 거부하는 데 더 간결해졌고 일부 사례는 인종과 성별에 초점을 맞춘 것으로 나타났습니다.
연구진은 "동일한" 대형 언어 모델 서비스의 동작이 비교적 짧은 기간에 극적으로 변화할 수 있기 때문에 AI 모델의 품질에 대한 지속적인 모니터링의 필요성을 강조했습니다. 이 연구는 챗봇이 최신 상태를 유지할 수 있도록 AI 서비스에 의존하는 사용자와 기업을 위한 모니터링 분석을 워크플로우의 일부로 구현할 것을 제안합니다. OpenAI는 최근 초지능 AI 시스템과 관련된 위험 관리를 전담하는 팀을 구성할 계획을 발표했으며, 향후 10년 이내에 이를 구축할 것으로 예상하고 있습니다.



















