大模型专题：2024年度中文大模型阶段性进展评估_科技动态

创始人

2024-08-24 20:01:06

0次

今天分享的是：大模型专题：2024年度中文大模型阶段性进展评估

报告共计：59页

《SuperCLUE中文大模型综合性测评基准2024年上半年报告 - 2024年度中文大模型阶段性进展评估》由SuperCLUE团队发布，主要内容如下：

一、国内大模型关键进展及趋势

1. 自ChatGPT发布以来，国内大模型经历准备期、成长期、爆发期三个阶段，技术不断进步。

2. 2024年值得关注的中文大模型全景图展示了众多大模型，涵盖闭源和开源、通用和行业模型。

3. 国内外大模型差距缩小，国内模型发展迅速，Top1模型不断易主。

二、SuperCLUE通用能力测评

1. 介绍了SuperCLUE的测评体系、数据集和方法，涵盖理科、文科、Hard任务等多个维度。

2. 国内外大模型在不同任务上表现各异，GPT-4o在多个方面领先，国内开源模型Qwen2 - 72B - Instruct表现出色。

3. 通过对模型象限、开源榜单、端侧小模型榜单及对战胜率、成熟度指数的分析，展现了不同模型的特点和发展水平。

三、SuperCLUE多模态能力测评

包括AIGVBench视频生成测评、SuperCLUE - Image文生图测评、SuperCLUE - V多模态理解测评等基准，评估多模态模型在不同领域的表现。

四、SuperCLUE专项与行业基准测评

涵盖Math6数学多步推理、代码助手、RAG检索增强生成等专项基准，以及汽车、金融、工业等行业基准，还有琅琊榜竞技场介绍和未来两个月基准发布计划。

五、优秀模型案例介绍

对Qwen2 - 72B - Instruct、SenseChat5.0、山海大模型4.0、AndesGPT、GLM - 4 - 0520等优秀模型进行案例介绍，包括其在SuperCLUE基准中的表现、特点和适合应用场景。

以下为报告节选内容