斯坦福大學和加州大學伯克利分校的研究人員對OpenAI的AI聊天機器人ChatGPT進行了一項研究,發現其最新模型在幾個月內的準確性有所下降。研究比較了ChatGPT-3.5和ChatGPT-4在解決數學問題、回答敏感問題、編寫代碼以及執行空間推理任務方面的表現。令人驚訝的是,ChatGPT-4在識別質數的準確率從3月份的97.6%大幅下降至6月份的2.4%。
相比之下,早期版本的GPT-3.5模型在同一時期識別質數的能力有所提高。此外,兩種ChatGPT模型在3月至6月期間生成新代碼的能力也顯著下降。研究人員還觀察到,聊天機器人在處理敏感問題時的回答方式發生了變化,最新模型對拒絕回答的處理變得更加簡潔,其中一些例子涉及種族和性別問題。
研究人員強調,需要對AI模型的質量進行持續監測,因為「相同」大型語言模型服務的行為在相對較短的時間內可能會發生顯著變化。為確保聊天機器人保持最新狀態,研究建議對用戶和依賴AI服務的公司實施監控分析,將其作為工作流程的一部分。OpenAI最近宣布計劃組建一個團隊,專門負責管理與超級智能AI系統相關的風險,該團隊預計將在未來十年內建立。


_6757c5165a270.jpg)


















