FlagEval是什么
FlagEval(天秤)是北京智源人工智能研究院于2023年推出的大模型评测体系及开放平台,采用"能力-任务-指标"三维评测框架,覆盖自然语言处理、计算机视觉、音频和多模态四大领域,包含22个主观和客观评测集、84433道题目,细粒度刻画基础模型的认知能力边界,为研究人员提供科学、公正、开放的评测基准、方法和工具集,协助全方位评估基础模型及训练算法的性能。

FlagEval的主要功能
多维度评测框架:采用"能力-任务-指标"三维评测框架,从30+能力、5大任务、4大指标共600+子维度全面评估大模型的认知能力,涵盖简单理解、知识运用、推理能力、数学能力、任务解决、安全与价值观等多个维度。
丰富的评测数据集:集成HellaSwag、MMLU、C-Eval等知名公开数据集,以及智源自建的主观评测数据集Chinese Linguistics & Cognition Challenge (CLCC),北京大学与闽江学院共建的语义关系判断、多义词理解、修辞手法判断评测数据集,总计22个评测集、84433道题目。
多模态模型支持:支持语言大模型、视觉语言模型、文生图、文生视频等多种多模态模型的评测,覆盖文本、图像、视频等多种数据类型,兼容多种AI框架和硬件架构。
自动化评测机制:实现主观评测和客观评测的全自动流水线,支持自适应评测机制,用户可根据模型类型和状态选择评测策略,平台自动整合评测结果并发送通知告警。
多芯片多框架支持:支持英伟达、昇腾、寒武纪、昆仑芯等多种芯片,以及PyTorch、MindSpore等多种深度学习框架,尤其支持国产芯片和框架在大模型创新进程中落地。
FlagEval的使用方法
- 注册登录:访问FlagEval官网(https://flageval.baai.ac.cn),注册并登录用户账户。
- 准备模型与代码:根据平台要求,准备好待评测的模型文件、推理代码及相关配置文件。在计算机视觉领域,需要提供模型的基本信息,如输入图像的预处理参数、任务相关的批处理大小等。
- 安装工具:通过安装FlagEval-Serving工具,用户可以上传模型、代码和数据等待评测的文件。
- 上传与评测:在平台上点击"上传模型 & 代码",获取上传所需的token,使用命令行工具上传模型文件和代码,创建评测任务并提交,平台将自动运行评测流程。
- 查看结果:评测完成后,在平台上查看详细的评测结果,包括性能指标、可视化图表等。
FlagEval的产品价格
FlagEval是完全免费的开源评测平台,用户无需支付任何费用即可使用所有评测功能、查看排行榜和下载评测报告。
FlagEval的适用人群
AI研究人员:用于评估新模型的性能,指导模型优化方向,分析模型在不同任务和场景下的表现。
模型开发者:辅助开发团队选择最佳模型版本或进行模型压缩,诊断模型的优势与不足,指导模型的进一步优化。
企业决策者:评估内部开发的模型或第三方提供的模型,支持业务决策和产品选型,为产品设计提供可靠的大模型评估工具。
教育工作者和学生:进行教学和研究,帮助学生和研究人员掌握AI模型评测的方法和技巧,培养AI领域的专业人才。
总而言之,FlagEval是一款用于全面评估大模型认知能力的科学评测平台,通过"能力-任务-指标"三维框架、22个评测集和84433道题目,为研究人员提供多维度、多模态的标准化评测工具,支持自动化评测和多芯片多框架兼容,推动大模型技术的创新和发展。
