
The Holistic Evaluation of Language Models (HELM) serves as a living benchmark for transparency in language models. Providing broad coverage and recognizing incompleteness, multi-metric measurements, and standardization. All data and analysis are freely accessible on the website for exploration and study.
CRFM Stanford 专注于大型语言模型(LLM)的性能评测和比较,提供排行榜、模型信息、使用场景以及开源资源,方便研究者和开发者了解和选择不同的AI模型。
核心功能列表(按重大程度排序)
-
排行榜(Leaderboard)– 展示各类AI模型在标准测试中的性能分数。
-
GitHub – 提供开源资源和项目代码链接。
-
重点模型展示 – 包含如Llama 2、GPT系列、Mistral、Cohere等主要模型的性能数据。
-
预测(Predictions)– 展示模型在特定任务中的预测结果。
-
场景(Scenarios)– 说明模型可应用的实际使用场景。
-
模型(Models)– 提供详细的各类大型语言模型及其参数信息。
| 模块 | 内容 | 详细信息 |
|---|---|---|
| 重点模型展示 | 高性能模型示例 | 特别突出Llama 2、GPT系列、Mistral、Cohere Command等模型,展示最新性能数据和参数。 |
| GitHub | 开源资源 | 提供代码、项目和工具的开源链接,方便研究者下载、使用和二次开发。 |
| 预测(Predictions) | 模型预测结果 | 展示模型在标准任务或特定测试中的预测输出,便于比较不同模型的准确性和效果。 |
| 排行榜(Leaderboard) | 模型性能评分 | – Llama 2 (70B):0.944 – LLaMA (65B):0.908 – text-davinci-002:0.905 – Mistral v0.1 (7B):0.884 – Cohere Command beta (52.4B):0.874 – text-davinci-003:0.872 – Jurassic-2 Jumbo (178B):0.824 – Llama 2 (13B):0.823 – TNLG v2 (530B):0.787 – gpt-3.5-turbo-0613:0.783 |
| 场景(Scenarios) | 模型应用场景 | 提供各种实际任务和使用场景的说明,用于评估模型在不同场景下的表现。 |
| 模型(Models) | 各类AI模型 | – AI21 Labs:J1-Jumbo v1 (178B)、J1-Large v1 (7.5B)、J1-Grande v1 (17B)、J1-Grande v2 beta (17B)、Jurassic-2 系列 – Aleph Alpha:Luminous Base (13B)、Luminous Extended (30B)、Luminous Supreme (70B) – Anthropic:Anthropic-LM v4-s3 (52B)、Claude 系列 – BigScience:BLOOM (176B)、T0pp (11B) – BigCode:SantaCoder (1.1B)、StarCoder (15.5B) – OpenAI:GPT-2 系列(124M–1.5B) – HuggingFace:IDEFICS 系列(9B–80B) – Cohere:Cohere xlarge、large、medium、small、Command 系列 – EleutherAI:GPT-J (6B)、GPT-NeoX (20B)、Pythia 系列 – Google:T5 (11B)、UL2 (20B)、Flan-T5 (11B)、PaLM-2 系列 – Lightning AI:Lit-GPT – Meta:OPT 系列(6.7B–175B) |
盾灵安全导航
The Center for Research on Foundation Models (CRFM) is an that makes fundamental advances in the study, development, and deployment of foundation models.
数据统计
数据评估
关于Stanford CRFM特别声明
本站路快AI提供的Stanford CRFM数据都来源于网络,不保证外部链接的准确性和完整性,同时,对于该外部链接的指向,不由路快AI实际控制,在2025年9月11日 上午4:19收录时,该网页上的内容,都属于合法合规,后期网页的内容如出现违规,请联系本站网站管理员进行举报,我们将进行删除,路快AI不承担任何责任。
相关导航

评测榜单旨在为大语言模型和多模态模型提供全面、客观且中立的得分与排名,同时提供多能力维度的评分参考,以便用户能够更全面地了解大模型的能力水平。

Cherry Studio
Cherry Studio AI 是一款强大的多模型 AI 助手,支持 iOS、macOS 和 Windows 平台。快速切换多个先进的 LLM 模型,提升工作学习效率。

MMBench
MMBench

Cohere
Cohere builds powerful models and AI solutions enabling enterprises to automate processes, empower employees, and turn fragmented data into actionable insights.

LMArena
Attention Required! | Cloudflare

腾讯混元大模型
腾讯混元大模型是由腾讯研发的大语言模型,具备跨领域知识和自然语言理解能力,实现基于人机自然语言对话的方式,理解用户指令并执行任务,帮助用户实现人获取信息,知识和灵感。

豆包大模型
火山引擎是字节跳动旗下的云与AI服务平台。在AI时代,聚焦豆包大模型和AI云原生技术,为企业提供从 Agent 开发到部署的一站式服务,助力企业AI转型与创新发展。

FlagEval
FlagEval
暂无评论...





