FlagEval(flageval.baai.ac.cn)是北京智源研究院打造的大模型综合能力评测与开源社区,面向全球研究者、开发者及企业,提供多维度、自动化、可复现的模型测评服务。平台以“公开、公正、开放”为原则,已覆盖语言、多模态、代码、数学、推理等上百项任务,累计评测国内外主流开源与闭源模型数百个,并持续发布权威排行榜与技术报告,成为中文大模型领域最具公信力的第三方评估中心。
FlagEval(flageval.baai.ac.cn)是北京智源研究院打造的大模型综合能力评测与开源社区,面向全球研究者、开发者及企业,提供多维度、自动化、可复现的模型测评服务。平台以“公开、公正、开放”为原则,已覆盖语言、多模态、代码、数学、推理等上百项任务,累计评测国内外主流开源与闭源模型数百个,并持续发布权威排行榜与技术报告,成为中文大模型领域最具公信力的第三方评估中心。