一月份发布的GPT-4 Turbo比上一版本更”懒惰”

OpenAI刚刚发布了新版本的GPT-4 Turbo。这个新模型旨在减少之前gpt-4-1106-preview模型普遍存在的”懒惰”问题：

今天我们发布了更新版的GPT-4 Turbo预览模型gpt-4-0125-preview。相比前一个预览模型，该模型能更彻底地完成代码生成等任务，旨在减少模型未完成任务时的”懒惰”情况。

考虑到这一点，我使用aider现有的懒惰编码基准测试对新模型进行了基准测试。

基准测试结果

总体而言，新的gpt-4-0125-preview模型似乎比去年11月的gpt-4-1106-preview模型更懒惰：

使用统一差异格式进行代码编辑时，它的基准测试得分更低
使用aider较旧的SEARCH/REPLACE块编辑格式时，1月新模型的表现优于11月旧模型。但仍比两种模型使用统一差异格式时的表现更差

相关报告

这是使用aider基准测试套件评估和比较 OpenAI GPT模型代码编辑能力的一系列报告之一。您可以查看其他报告获取更多信息：

目录