基准测试说明
关于定价的说明
所有定价信息均为运行基准测试时的实际成本。 服务提供商会调整价格,有时还会引入全新的定价结构。 我们提供的定价信息基于最大努力原则,可能无法始终保持最新或完全准确。
关于基准测试结果的说明
关键的基准测试指标包括:
- 正确完成百分比 - 衡量LLM成功完成编程任务的比例。要完成一个任务,LLM必须解决编程问题并通过编辑代码来实现该解决方案。
- 正确使用编辑格式百分比 - 衡量LLM遵守系统提示中指定编辑格式的任务比例。如果LLM出现编辑错误,aider会提供反馈并要求修正编辑内容。表现最佳的模型能够可靠地遵循编辑格式而不出错。
关于编辑格式的说明
Aider使用不同的”编辑格式”从不同LLM收集代码修改。 “whole”(完整文件)格式对LLM来说最容易使用,但会消耗大量token,可能限制可编辑文件的大小。 能够使用某种diff格式的模型效率更高,消耗的token少得多。 使用类diff格式的模型能够以更低成本编辑更大文件,且不会触及token限制。
Aider已配置为OpenAI和Anthropic的主流模型以及LLM页面推荐的其他模型使用最优编辑格式。 对于不太知名的模型,aider将默认使用”whole”编辑格式,因为这是LLM最容易使用的格式。