跳到主要内容

模型评测框架介绍

传神社区提供了lm-evaluation-harness 和 OpenCompass 两个主流的模型评测框架，它们有各自的特点和应用场景。

lm-evaluation-harness

简介
- 由 EleutherAI 提供的一个 Python 工具，用于统一评估语言模型的性能。
- 支持多种评估任务，如语言建模（Language Modeling）、零样本（Zero-Shot）和少样本（Few-Shot）任务。
特点
- 灵活性：支持对接多种模型，包括 Hugging Face 的 Transformers 模型、OpenAI 的 API 模型等。
- 任务多样性：涵盖了 NLP 的多个任务，如文本生成、完形填空、问答、翻译等。
- 标准化评测：以统一的接口为模型提供公平的性能对比。
支持的模型
- Hugging Face Transformers 库中的模型，例如 GPT-2、GPT-3、T5、BERT 等。
- OpenAI API 模型（如 GPT-3.5、GPT-4）。
- 自定义模型（需要用户提供合适的 API 接口或加载逻辑）。
适用场景
- 研究型项目的语言模型性能评估。
- 对标已有模型的性能表现，尤其是研究 LLM 的对比性实验。

OpenCompass

简介
- OpenCompass 是一个开源的评测框架，特别针对国内外大语言模型的性能评估需求设计。
- 由国内开发者和开源社区维护，支持对中文语料和任务的深入评测。
特点
- 本地化支持：尤其适合中文 NLP 的评测任务，支持大量中文基准测试数据集（如 CLUE）。
- 多模型兼容：支持 Hugging Face 模型、开源 LLM，以及通过 API 的商用模型（如百度文心、阿里通义）。
- 可扩展性：用户可以轻松添加自定义任务或数据集。
支持的模型
- Hugging Face 的 Transformer 模型。
- 国内外开源的 LLM，如 ChatGLM、MOSS、LLaMA、Falcon。
- 提供 API 的商用模型，如百度文心、阿里通义、讯飞星火等。
适用场景
- 针对中文任务的评估（例如文本分类、问答生成）。
- 比较国内外大语言模型在中文任务上的表现差异。

Evalscope

简介
- EvalScope 是魔搭社区倾力打造的模型评测与性能基准测试框架，为您的模型评估需求提供一站式解决方案。
- 由国内开发者和开源社区维护，支持对中文语料和任务的深入评测。
特点
- 本地化支持：内置多个业界认可的测试基准和评测指标：MMLU、CMMLU、C-Eval、GSM8K 等。
- 多模型兼容：支持 Hugging Face 模型、开源 LLM，以及通过 API 的商用模型（如百度文心、阿里通义）。
- 可扩展性：用户可以轻松添加自定义任务或数据集。
支持的模型
- 大语言模型。
- Embedding 模型
- 多模态模型。
- AIGC模型。
适用场景
- 针对中文任务的评估（例如文本分类、问答生成）。
- 比较国内外大语言模型在中文任务上的表现差异。

框架的比较

特点	lm-evaluation-harness	OpenCompass	Evalscope
任务范围	全球化任务（英文为主）	特别关注中文任务	特别关注中文任务
模型支持	开源模型 + API 模型	开源模型 + 国内商用模型	开源模型 + 国内商用模型
适用场景	学术研究，英文为主的模型性能对比	中文任务评估，国内外模型性能比较	中文任务评估，国内外模型性能比较, 数据集较新
扩展性	较高，但偏向技术性用户	用户友好，适合快速添加本地化任务	用户友好，适合快速添加本地化任务

适用场景

如果你的评测任务以英文为主或需要对标全球 LLM，推荐使用 lm-evaluation-harness。
如果你的评测任务以中文为主或涉及国内商用模型，建议使用 OpenCompass。
如果你的评测模型是丰富多样的，建议使用 Evalscope。
以上三个框架的模型评测体系可以结合使用，以全面覆盖不同语言和任务的模型性能对比需求。

lm-evaluation-harness
OpenCompass
Evalscope
框架的比较
适用场景