大模型专题:2024年度中文大模型阶段性进展评估
创始人
2024-08-24 20:01:06
0

今天分享的是:大模型专题:2024年度中文大模型阶段性进展评估

报告共计:59页

《SuperCLUE中文大模型综合性测评基准2024年上半年报告 - 2024年度中文大模型阶段性进展评估》由SuperCLUE团队发布,主要内容如下:

一、国内大模型关键进展及趋势

1. 自ChatGPT发布以来,国内大模型经历准备期、成长期、爆发期三个阶段,技术不断进步。

2. 2024年值得关注的中文大模型全景图展示了众多大模型,涵盖闭源和开源、通用和行业模型。

3. 国内外大模型差距缩小,国内模型发展迅速,Top1模型不断易主。

二、SuperCLUE通用能力测评

1. 介绍了SuperCLUE的测评体系、数据集和方法,涵盖理科、文科、Hard任务等多个维度。

2. 国内外大模型在不同任务上表现各异,GPT-4o在多个方面领先,国内开源模型Qwen2 - 72B - Instruct表现出色。

3. 通过对模型象限、开源榜单、端侧小模型榜单及对战胜率、成熟度指数的分析,展现了不同模型的特点和发展水平。

三、SuperCLUE多模态能力测评

包括AIGVBench视频生成测评、SuperCLUE - Image文生图测评、SuperCLUE - V多模态理解测评等基准,评估多模态模型在不同领域的表现。

四、SuperCLUE专项与行业基准测评

涵盖Math6数学多步推理、代码助手、RAG检索增强生成等专项基准,以及汽车、金融、工业等行业基准,还有琅琊榜竞技场介绍和未来两个月基准发布计划。

五、优秀模型案例介绍

对Qwen2 - 72B - Instruct、SenseChat5.0、山海大模型4.0、AndesGPT、GLM - 4 - 0520等优秀模型进行案例介绍,包括其在SuperCLUE基准中的表现、特点和适合应用场景。

以下为报告节选内容

相关内容

热门资讯

原创 原... 原来钥匙应该这样穿,别再傻傻的用指甲扣了,这样穿最简单! 每次串钥匙时,繁琐又伤指甲,在无指甲的情况...
香菇誉为“菇中皇后” 富含人体... 香菇是中国著名的食用菌,被人们誉为“菇中皇后”,在民间素有“山珍”之称,深受人们的喜爱,是不可多得的...
鱼跃医疗国家重点研发计划顺利验... 近日,由鱼跃医疗牵头,中科院微电子所、电子所、医工所、北京协和医院等十余家高校科研院所以及临床医院共...
涉“文件传输助手”,国安部紧急... 科技蓬勃发展的数字时代,网上办公以其时效性和便捷性成为当今社会一种流行的工作方式。诸多线上平台汇集了...
华为Mate XT刷屏,东莞走... 华为Mate XT刷屏,东莞走到台前。 在Mate XT发布之际,东莞发布“骄傲”地宣布:火爆全网的...
全新一代锂电池安全管理信号采集... 9月11日,在以“数能先锋 智创未来”为主题的深圳2024国际数字能源展重大成果发布会上,奕东电子科...
原创 华... 去年8月底华为在毫无预兆的情况下,突然上架了Mate60系列,重新回归的麒麟芯片,5G网络,还有全球...
总是梦见被追赶,有啥特殊含义吗... 转自:中国科协 人在睡觉的时候都会做梦,既会有突然中了千万大奖当场退休的美梦,也有令人汗流浃背、久久...
雷军亲自玩梗:大家觉得OK不O... 9月12日晚,雷军发布视频,透露已经给自己的车装上“Are you OK”的气门芯帽,亲自下场玩梗。...
中秋节遇强台风,太保服务与风赛... 今年第13号台风“贝碧嘉”正逐渐向我国东部沿海靠近,登陆时强度预计为台风级或强台风级,预计未来三天,...