英伟达和微软发布新的小语言模型
创始人
2024-08-24 14:20:27
0

英伟达近日发布了一款轻量级语言模型Mistral-NeMo-Minitron 8B,该模型在一系列任务中的表现均优于同等规模的神经网络。

该模型的代码以开源许可的形式发布在Hugging Face网站上。该模型发布的前一天,微软刚刚推出了几个自己的开源语言模型。与英伟达的新算法一样,这些新模型也是为了在处理能力有限的设备上运行而设计的。

Mistral-NeMo-Minitron 8B是英伟达上个月推出的Mistral NeMo 12B语言模型的缩小版。后者是与Mistral AI SAS合作开发的算法,Mistral AI SAS是一家人工智能初创公司,已经募集了大量的资金。英伟达利用了两种名为“剪枝”和“提炼”的机器学习技术创建了Mistral-NeMo-Minitron 8B。

“剪枝”是一种通过删除代码库中不必要的组件来降低模型硬件要求的方法。神经网络由无数个人工神经元组成,每个人工神经元的代码片段都能执行一组相对简单的计算。其中一些代码片段在处理用户请求时发挥的作用不如其他代码片段活跃,这意味着可以在不显著降低人工智能输出质量的情况下删除这些代码片段。

在对 Mistral NeMo 12B进行“剪枝”后,英伟达进入了该项目的所谓“提炼”阶段。“提炼”是工程师将人工智能知识转移到另一个硬件效率更高的神经网络的过程。在这种情况下,第二个模型就是今天亮相的Mistral-NeMo-Minitron 8B,它比原来的模型少了40亿个参数。

开发人员还可以通过从头开始训练一个全新的模型来降低人工智能项目的硬件要求。与这种方法相比,“提炼”有几个优势,尤其是能提高人工智能的输出质量。将大型模型“提炼”为小型模型的成本也更低,因为这项任务不需要那么多训练数据。

英伟达表示,在开发过程中结合使用“剪枝”和“提炼”技术显著提高了Mistral-NeMo-Minitron 8B 的效率。英伟达的高管Kari Briski在一篇博文中介绍说,“其体积小到足以在配备了Nvidia RTX的工作站上运行,同时在人工智能支持的聊天机器人、虚拟助手、内容生成器和教育工具的多个基准测试中依然表现出色。”

Mistral-NeMo-Minitron 8B发布的前一天,微软刚刚开源了自己的三个语言模型。与英伟达的新算法一样,它们的开发也考虑到了硬件效率。

这些模型中最紧凑的名为Phi-3.5-mini-instruct。它拥有38亿个参数,可以处理多达 128,000个标记的数据提示,这使它能够摄取冗长的商业文档。微软进行的一项基准测试表明,Phi-3.5-mini-instruct在执行某些任务时比Llama 3.1 8B和Mistral 7B更出色,而后两者的参数数量大约是前者的两倍。

本周二,微软还开源了另外两个语言模型。第一个是Phi-3.5-vision-instruct,它是Phi-3.5-mini-instruct的一个版本,可以执行图像分析任务,比如解释用户上传的图表。它与Phi-3.5-MoE-instruct同时推出,后者是一个更大的模型,拥有608亿个参数。当用户输入提示时,只有十分之一的参数会激活,这大大减少了推理所需的硬件数量。

相关内容

热门资讯

原创 原... 原来钥匙应该这样穿,别再傻傻的用指甲扣了,这样穿最简单! 每次串钥匙时,繁琐又伤指甲,在无指甲的情况...
香菇誉为“菇中皇后” 富含人体... 香菇是中国著名的食用菌,被人们誉为“菇中皇后”,在民间素有“山珍”之称,深受人们的喜爱,是不可多得的...
鱼跃医疗国家重点研发计划顺利验... 近日,由鱼跃医疗牵头,中科院微电子所、电子所、医工所、北京协和医院等十余家高校科研院所以及临床医院共...
涉“文件传输助手”,国安部紧急... 科技蓬勃发展的数字时代,网上办公以其时效性和便捷性成为当今社会一种流行的工作方式。诸多线上平台汇集了...
华为Mate XT刷屏,东莞走... 华为Mate XT刷屏,东莞走到台前。 在Mate XT发布之际,东莞发布“骄傲”地宣布:火爆全网的...
全新一代锂电池安全管理信号采集... 9月11日,在以“数能先锋 智创未来”为主题的深圳2024国际数字能源展重大成果发布会上,奕东电子科...
原创 华... 去年8月底华为在毫无预兆的情况下,突然上架了Mate60系列,重新回归的麒麟芯片,5G网络,还有全球...
总是梦见被追赶,有啥特殊含义吗... 转自:中国科协 人在睡觉的时候都会做梦,既会有突然中了千万大奖当场退休的美梦,也有令人汗流浃背、久久...
雷军亲自玩梗:大家觉得OK不O... 9月12日晚,雷军发布视频,透露已经给自己的车装上“Are you OK”的气门芯帽,亲自下场玩梗。...
中秋节遇强台风,太保服务与风赛... 今年第13号台风“贝碧嘉”正逐渐向我国东部沿海靠近,登陆时强度预计为台风级或强台风级,预计未来三天,...