AI模型评测

OpenCompass

评测榜单旨在为大语言模型和多模态模型提供全面、客观且中立的得分与排名，同时提供多能力维度的评分参考，以便用户能够更全面地了解大模型的能力水平。

进入官网

OpenCompass 司南大模型公开榜单由上海人工智能实验室 2023 年 8 月推出，定位“大模型能力体检中心”。平台以完全开源、可复现的评测框架为核心，持续对国内外主流大语言模型与多模态模型进行标准化测试，并实时发布权威排名。榜单数据每月更新，结果同步至 Hugging Face Spaces，面向学术界、产业界及开发者免费开放，旨在打造中文世界最可信的模型性能参照系。

主要功能

综合排行榜
按“平均得分”给出总榜 TOP100，一眼看清模型梯队。
多维能力切片
细分学科（数理化、文史哲）、语言（中英双语）、知识（常识、专业知识）、推理（数学、代码）、安全与对齐等 20+ 维度得分，支持横向对比。
模型详情页
展示参数规模、训练数据、许可证、官方/社区链接，附可复现的评测配置一键下载。
趋势追踪
提供历史版本曲线，观察同一模型迭代效果；支持勾选多款模型生成对比折线图。
API & 数据下载
开放评测脚本、数据集及结果 CSV/JSON，方便研究者二次分析或企业自建私有榜单。
学术榜单 & 多模态榜单双入口
除语言模型外，另设 MMBench 多模态排行，覆盖图文、视频理解等任务。
社区互动
每模型开放评论区与 GitHub Issue 直达，官方每季度举办线上解读直播。

应用场景

企业选型：快速筛选适合业务场景的高性价比开源模型。
学术研究：引用公开得分作为实验基线，节省重复评测成本。
投资机构：用榜单量化技术实力，辅助估值与尽调。
开发者学习：通过对比同规模模型差距，定位微调方向。
政策与媒体：获取中立数据支撑 AI 产业报告与新闻报道。

优势特点

中立权威：由国家级实验室背书，数据集与脚本完全开源，杜绝“刷榜”。
中文友好：专注中文任务，榜单同时给出英文成绩，便于衡量双语能力。
更新及时：重大模型发布后 48 小时内完成评测并上线结果。
复现门槛低：一键 Docker 镜像+详细文档，单张 A100 即可复现。
社区共建：GitHub 3000+ Star，全球 200+ 贡献者持续优化评测维度。