基准测试说明

关于定价的说明

所有定价信息均为运行基准测试时的实际成本。服务提供商会调整价格，有时还会引入全新的定价结构。我们提供的定价信息基于最大努力原则，可能无法始终保持最新或完全准确。

关于基准测试结果的说明

关键的基准测试指标包括：

正确完成百分比 - 衡量LLM成功完成编程任务的比例。要完成一个任务，LLM必须解决编程问题并通过编辑代码来实现该解决方案。
正确使用编辑格式百分比 - 衡量LLM遵守系统提示中指定编辑格式的任务比例。如果LLM出现编辑错误，aider会提供反馈并要求修正编辑内容。表现最佳的模型能够可靠地遵循编辑格式而不出错。

关于编辑格式的说明

Aider使用不同的”编辑格式”从不同LLM收集代码修改。 “whole”（完整文件）格式对LLM来说最容易使用，但会消耗大量token，可能限制可编辑文件的大小。能够使用某种diff格式的模型效率更高，消耗的token少得多。使用类diff格式的模型能够以更低成本编辑更大文件，且不会触及token限制。

Aider已配置为OpenAI和Anthropic的主流模型以及LLM页面推荐的其他模型使用最优编辑格式。对于不太知名的模型，aider将默认使用”whole”编辑格式，因为这是LLM最容易使用的格式。

基准测试说明

关于定价的说明

关于基准测试结果的说明

关于编辑格式的说明

目录