AI模型评测

AGI-Eval

None

进入官网

AGI-Eval 是国内首个专注通用人工智能（AGI）能力评估的开放社区，由清华大学、上海人工智能实验室等机构联合发起。网站围绕“测得准、比得狠、用得上”的理念，持续发布大模型、多模态、视频生成、智能体等最新评测榜单，并提供可视化数据、技术报告下载与开发者讨论区。用户可免费查阅模型排名、能力雷达图、示例案例，也可提交自有模型参与盲测，获得官方认证分数。

主要功能

实时榜单
• 大语言模型榜：综合考察语言理解、知识问答、推理、代码生成等 10+ 维度。
• 多模态模型榜：图文理解、视频-文本一致性、跨模态检索等专项评分。
• 视频生成榜：对 Sora、可灵、PixVerse 等国内外模型进行运动质量、画面稳定性、文本一致性等 7 项指标评测。
• 智能体榜：基于 GAIA、AgentBench 等基准，衡量模型在真实任务中的规划、反思与工具调用能力。
深度报告
每月发布《AGI-Eval 行业动态》，解析新模型技术亮点、训练方法、实测表现，并附原始数据下载。
在线评测通道
注册开发者可上传模型权重或调用 API，平台在隔离环境中跑分，72 小时内返回详细报告与雷达图。
数据集与工具
提供 3W+ 众包标注的真实评测数据、Prompt 模板、自动打分脚本，支持一键复现榜单结果。
社区互动
论坛、直播解析、模型作者 AMA，方便研究者交流经验、获取官方答疑。

应用场景

• 企业选型：快速对比国内外模型在自身业务指标上的差距，降低采购试错成本。
• 研发团队：利用公开数据集做消融实验，定位模型弱点；提交自研模型获取权威分数做 PR。
• 投资机构：用榜单与报告评估初创公司技术壁垒，为融资尽调提供量化依据。
• 高校教学：将榜单案例引入课堂，直观展示不同架构、训练策略的效果差异。
• 政策制定：监管部门参考评测标准，建立行业准入或备案的技术红线。

优势特点

• 权威：联合顶级高校、大厂制定评测维度，结果受行业广泛引用。
• 中立：盲测机制、开源脚本、公开数据，杜绝“刷榜”。
• 实时：新模型 24 小时内上线对比，榜单按周更新。
• 易用：可视化雷达图、一键下载报告、中文界面，零门槛查看。
• 开放：评测工具链开源，支持社区贡献题目与算力，形成正向飞轮。