HELM(Holistic Evaluation of Language Models)由斯坦福CRFM团队打造,是面向语言大模型的权威公开评测站点。它把“测什么、怎么测、结果如何”全部搬到线上:覆盖100+模型、40+场景、70+指标,从准确率、鲁棒性、公平性到能耗、碳排、推理成本,全方位打分并实时更新。用户无需安装任何软件,浏览器即可查看排行榜、对比曲线、原始日志和复现脚本,真正做到“开箱即测、一键复现”。
HELM(Holistic Evaluation of Language Models)由斯坦福CRFM团队打造,是面向语言大模型的权威公开评测站点。它把“测什么、怎么测、结果如何”全部搬到线上:覆盖100+模型、40+场景、70+指标,从准确率、鲁棒性、公平性到能耗、碳排、推理成本,全方位打分并实时更新。用户无需安装任何软件,浏览器即可查看排行榜、对比曲线、原始日志和复现脚本,真正做到“开箱即测、一键复现”。