一月份发布的GPT-4 Turbo比上一版本更”懒惰”

基准测试结果

OpenAI刚刚发布了新版本的GPT-4 Turbo。 这个新模型旨在减少之前gpt-4-1106-preview模型普遍存在的”懒惰”问题:

今天我们发布了更新版的GPT-4 Turbo预览模型gpt-4-0125-preview。相比前一个预览模型,该模型能更彻底地完成代码生成等任务,旨在减少模型未完成任务时的”懒惰”情况。

考虑到这一点,我使用aider现有的 懒惰编码基准测试 对新模型进行了基准测试。

基准测试结果

总体而言, 新的gpt-4-0125-preview模型似乎比 去年11月的gpt-4-1106-preview模型更懒惰:

  • 使用统一差异格式进行代码编辑时,它的基准测试得分更低
  • 使用aider较旧的SEARCH/REPLACE块编辑格式时,1月新模型的表现优于11月旧模型。但仍比两种模型使用统一差异格式时的表现更差

相关报告

这是使用aider基准测试套件评估和比较 OpenAI GPT模型代码编辑能力的一系列报告之一。 您可以查看其他报告获取更多信息:


目录