FlagEval | AI模型评测

FlagEval是什么

FlagEval（天秤）是北京智源人工智能研究院于2023年推出的大模型评测体系及开放平台，采用"能力-任务-指标"三维评测框架，覆盖自然语言处理、计算机视觉、音频和多模态四大领域，包含22个主观和客观评测集、84433道题目，细粒度刻画基础模型的认知能力边界，为研究人员提供科学、公正、开放的评测基准、方法和工具集，协助全方位评估基础模型及训练算法的性能。

FlagEval的主要功能

多维度评测框架：采用"能力-任务-指标"三维评测框架，从30+能力、5大任务、4大指标共600+子维度全面评估大模型的认知能力，涵盖简单理解、知识运用、推理能力、数学能力、任务解决、安全与价值观等多个维度。

丰富的评测数据集：集成HellaSwag、MMLU、C-Eval等知名公开数据集，以及智源自建的主观评测数据集Chinese Linguistics & Cognition Challenge (CLCC)，北京大学与闽江学院共建的语义关系判断、多义词理解、修辞手法判断评测数据集，总计22个评测集、84433道题目。

多模态模型支持：支持语言大模型、视觉语言模型、文生图、文生视频等多种多模态模型的评测，覆盖文本、图像、视频等多种数据类型，兼容多种AI框架和硬件架构。

自动化评测机制：实现主观评测和客观评测的全自动流水线，支持自适应评测机制，用户可根据模型类型和状态选择评测策略，平台自动整合评测结果并发送通知告警。

多芯片多框架支持：支持英伟达、昇腾、寒武纪、昆仑芯等多种芯片，以及PyTorch、MindSpore等多种深度学习框架，尤其支持国产芯片和框架在大模型创新进程中落地。

FlagEval的使用方法

注册登录：访问FlagEval官网（https://flageval.baai.ac.cn），注册并登录用户账户。
准备模型与代码：根据平台要求，准备好待评测的模型文件、推理代码及相关配置文件。在计算机视觉领域，需要提供模型的基本信息，如输入图像的预处理参数、任务相关的批处理大小等。
安装工具：通过安装FlagEval-Serving工具，用户可以上传模型、代码和数据等待评测的文件。
上传与评测：在平台上点击"上传模型 & 代码"，获取上传所需的token，使用命令行工具上传模型文件和代码，创建评测任务并提交，平台将自动运行评测流程。
查看结果：评测完成后，在平台上查看详细的评测结果，包括性能指标、可视化图表等。

FlagEval的产品价格

FlagEval是完全免费的开源评测平台，用户无需支付任何费用即可使用所有评测功能、查看排行榜和下载评测报告。

FlagEval的适用人群

AI研究人员：用于评估新模型的性能，指导模型优化方向，分析模型在不同任务和场景下的表现。

模型开发者：辅助开发团队选择最佳模型版本或进行模型压缩，诊断模型的优势与不足，指导模型的进一步优化。

企业决策者：评估内部开发的模型或第三方提供的模型，支持业务决策和产品选型，为产品设计提供可靠的大模型评估工具。

教育工作者和学生：进行教学和研究，帮助学生和研究人员掌握AI模型评测的方法和技巧，培养AI领域的专业人才。

总而言之，FlagEval是一款用于全面评估大模型认知能力的科学评测平台，通过"能力-任务-指标"三维框架、22个评测集和84433道题目，为研究人员提供多维度、多模态的标准化评测工具，支持自动化评测和多芯片多框架兼容，推动大模型技术的创新和发展。