一月份发布的GPT-4 Turbo比上一版本更”懒惰”
OpenAI刚刚发布了新版本的GPT-4 Turbo。
这个新模型旨在减少之前gpt-4-1106-preview
模型普遍存在的”懒惰”问题:
今天我们发布了更新版的GPT-4 Turbo预览模型gpt-4-0125-preview。相比前一个预览模型,该模型能更彻底地完成代码生成等任务,旨在减少模型未完成任务时的”懒惰”情况。
考虑到这一点,我使用aider现有的 懒惰编码基准测试 对新模型进行了基准测试。
基准测试结果
总体而言,
新的gpt-4-0125-preview
模型似乎比
去年11月的gpt-4-1106-preview
模型更懒惰:
- 使用统一差异格式进行代码编辑时,它的基准测试得分更低
- 使用aider较旧的SEARCH/REPLACE块编辑格式时,1月新模型的表现优于11月旧模型。但仍比两种模型使用统一差异格式时的表现更差
相关报告
这是使用aider基准测试套件评估和比较 OpenAI GPT模型代码编辑能力的一系列报告之一。 您可以查看其他报告获取更多信息:
- GPT代码编辑基准测试评估了3月和6月版本的GPT-3.5和GPT-4
- OpenAI”1106”模型的代码编辑基准测试
- Aider的懒惰编码基准测试