AI开发AI模型评测AGI-Eval
AI模型评测

AGI-Eval

None

AGI-Eval 是国内首个专注通用人工智能(AGI)能力评估的开放社区,由清华大学、上海人工智能实验室等机构联合发起。网站围绕“测得准、比得狠、用得上”的理念,持续发布大模型、多模态、视频生成、智能体等最新评测榜单,并提供可视化数据、技术报告下载与开发者讨论区。用户可免费查阅模型排名、能力雷达图、示例案例,也可提交自有模型参与盲测,获得官方认证分数。

主要功能

  1. 实时榜单
    • 大语言模型榜:综合考察语言理解、知识问答、推理、代码生成等 10+ 维度。
    • 多模态模型榜:图文理解、视频-文本一致性、跨模态检索等专项评分。
    • 视频生成榜:对 Sora、可灵、PixVerse 等国内外模型进行运动质量、画面稳定性、文本一致性等 7 项指标评测。
    • 智能体榜:基于 GAIA、AgentBench 等基准,衡量模型在真实任务中的规划、反思与工具调用能力。

  2. 深度报告
    每月发布《AGI-Eval 行业动态》,解析新模型技术亮点、训练方法、实测表现,并附原始数据下载。

  3. 在线评测通道
    注册开发者可上传模型权重或调用 API,平台在隔离环境中跑分,72 小时内返回详细报告与雷达图。

  4. 数据集与工具
    提供 3W+ 众包标注的真实评测数据、Prompt 模板、自动打分脚本,支持一键复现榜单结果。

  5. 社区互动
    论坛、直播解析、模型作者 AMA,方便研究者交流经验、获取官方答疑。

应用场景

• 企业选型:快速对比国内外模型在自身业务指标上的差距,降低采购试错成本。
• 研发团队:利用公开数据集做消融实验,定位模型弱点;提交自研模型获取权威分数做 PR。
• 投资机构:用榜单与报告评估初创公司技术壁垒,为融资尽调提供量化依据。
• 高校教学:将榜单案例引入课堂,直观展示不同架构、训练策略的效果差异。
• 政策制定:监管部门参考评测标准,建立行业准入或备案的技术红线。

优势特点

• 权威:联合顶级高校、大厂制定评测维度,结果受行业广泛引用。
• 中立:盲测机制、开源脚本、公开数据,杜绝“刷榜”。
• 实时:新模型 24 小时内上线对比,榜单按周更新。
• 易用:可视化雷达图、一键下载报告、中文界面,零门槛查看。
• 开放:评测工具链开源,支持社区贡献题目与算力,形成正向飞轮。