昨天半夜刷行业新闻,直接给我看精神了——英伟达那新GPU,Blackwell,真落地了。不是之前传的概念图,是实打实能摸到的东西,光晶体管就堆了2080亿个,当时我揉了揉眼睛,以为看错了小数点。
说实话,之前用H100的时候我就觉得够顶了,跑个中等规模的模型都顺风顺水。可圈内总传老黄憋着大招,说要把游戏卡和AI卡的架构揉到一起。我当时还跟朋友吐槽,这不瞎折腾吗?两种架构需求差太远了。结果你猜怎么着?还真成了。
这Blackwell压根不是单一个芯片,是个平台。用了个叫D2D的技术把两颗芯片连起来,带宽直接干到10TB/s。我不是搞硬件的,具体原理说不太清,但举个直观的例子,之前跑一个万亿参数的模型,光预热就得小半天,还得担心算力不够中途崩了。现在试了下,速度快了不止一点,老黄说比H100快30倍,我没精确算,但体感上至少是以前的好几倍。
最关键的是能耗,这玩意儿才是真惊喜。之前机房里堆H100,空调开最大还发烫,电费单下来的时候老板脸都绿了。现在换了Blackwell,相同算力下,电费好像省了不少,昨天看运维小哥嘴角都带着笑。哦对了,它还能把576个GPU连起来一起干活,这要是以前,想都不敢想,光协调同步就得头大。
我突然想起去年跟一个创业公司的朋友聊天,他说他们团队想做个多模态模型,就是能处理文字又能弄视频的那种,结果算力不够,硬生生把项目砍了。当时我还劝他再等等,没想到这一等,门槛真就降下来了。Blackwell这性能,跑多模态模型简直是量身定做,OpenAI不都开始搞GPT-5和Sora了吗?估计就是盯着这硬件来的。
对了,这芯片用的是台积电4NP工艺,听说是专门定制的。我不懂工艺这些弯弯绕,但知道能把2080亿晶体管塞进去,绝对是技术活。之前看某篇分析说,这种工艺精度比头发丝还细好多倍,现在想想还挺神奇的,科技这东西真是没上限。
不过有个点我刚开始没搞懂,它是把GPU和Grace CPU连在一起的,叫什么超级芯片。后来问了公司的硬件大神才明白,这样数据在CPU和GPU之间传得更快,不用来回倒腾浪费时间。你别说,这种设计思路是真巧妙,以前怎么没人想到呢?
现在圈里都在聊,这东西出来后,小公司是不是也能玩得起大模型了。以前万亿参数那都是大厂的专属,小团队连门槛都摸不到。现在不一样了,算力成本降了这么多,说不定过段时间就能冒出一堆有意思的小模型。我甚至都想好了,要是公司算力富余,我都想自己捣鼓个专属的小模型玩玩。
说真的,刚开始接触AI的时候,总觉得这些高端硬件离普通人很远。没想到才几年功夫,从H100到Blackwell,门槛降得这么快。昨天跟以前的老师聊起这事儿,他都感慨,以前他们做科研的时候,算个简单的数据都要等好几天,现在这算力真是不敢想。
你们说这事儿神不神?以前觉得遥不可及的技术,转眼就落地了。我现在好奇的是,这Blackwell普及开后,会不会冒出更多像Sora那样的黑科技?要是你们有机会用这硬件,最想捣鼓点啥?评论区聊聊呗。