电车香还是CUDA香?
本来
WAIC
后准备写个review交差的,但是,看大家展台真都主打“大模型”了,我好像也不需要再多说了。
Groq前天(2023年8月8日)悄咪咪的丢了一个“王炸”:Groq™ First to Achieve 100 Tokens Per Second Per User on Meta AI's Llama-2 70B, Leading All Artificial Intelligence Solutions Providers in Inference Performance
。在“老王卖瓜”的简短发布视频中,Jonathan Ross
毫不谦虚的说:
This is a race, OK? We're the first to 100, but let's see if anynoe can catch us. And let's see where each of us can get to.
比亚迪昨天(2023年8月9日)发布了一个相当有自信、格局与美感的视频「在一起 才是中国汽车」,相信大家都在朋友圈刷到了吧。
2分47秒的视频,几乎就是中国汽车工业发展的极简版纪录片。
2000年上汽通用发布的“别克赛欧”,以“十万元轿车开回家”的口号,拉开了轿车走入寻常百姓家的序幕。
随后的“起亚 千里马”,“福特 嘉年华”,“本田 飞度”,“别克 凯悦”几乎一亮相都成为话题中心。
做为一个刚参加工作,年薪高达三、四万的打工人,不免也开始做起白日梦:什么时候能变成“有车一族”?
那是一个“合资车”狂欢的时代。
在别人定好的跑道,跟随都难,何谈超越
在发动机
、变速箱
、底盘系统
这三大件完全被国外车厂和供应商“技术垄断”的背景下,国内走“自主研发”技术路线的车厂,应该说生存的非常不容易。
这个阶段三大件几乎唯一的选项就是:“给你卖什么,就用什么”。
在取得技术自主或者技术突破的可能性不大的背景下,只能沿着行业领先者划定的“技术范式”搞产品开发。
外观、低价、皮尺几乎就是哪个时代国内车厂为数不多的可选“产品力”了。
- 2003年的吉利美人豹
- 2003年的奇瑞QQ
- 2005年的比亚迪F3
- 2005年的双环SCEO
- 2015年的陆风X7
- ……
当“油耗”成为用车成本不可忽视的问题的时候,使用“涡轮增压”技术在相同排量下获得更高扭矩与输出功率的技术范式起步阶段,传统技术范式的卫道士会告诉你:低转速涡轮不介入,高转速后涡轮效率下降,后段加速不行;还是大排量自吸香,功率输出稳定,后段加速强。
当温室问题和碳排放成为严肃问题的时候,“排放”法规的压力驱使8缸、6缸几乎消失不见,4缸成为主流,当部分厂商开始上“三缸”机应对更严苛的排放法规的时候,传统技术范式的卫道士会告诉你:三缸机不行,不对称,抖你没商量。
但是,现在的油车哪个不带T,宝马1.5TB38
上车之后,还有多少“喷子”喷三缸机了?
在三大件难有突破的,怎么造车这个技术范式话语权在巨头手中的时候,国产车的发展,经历了第一波价格便宜,外观碰瓷的艰难起步,逐渐摸到了“自主”造车,造“自主”车的思路和技术积累,能够“真正”自主造车了。
长城WEY
的VV5
,吉利领克
的03+
可以说是这个期间的两款扛鼎之作。
虽然三大件还是不能完全独立自主,但怎么用拿来主义的三大件造自己车,这件事是做到了。
虽然坐进VV5
,看一眼中控还是有明显的“保时捷”味道,驾驶感受也一般。但是,不能否认这个车的外观漂亮与有自己的设计语言。
虽然03+
已经没有了“美人豹”的“跑车”外观,整车外观设计是否漂亮也是见仁见智。但是,不能否认这个车不但可以下赛道而且能夺冠了。
三电替代三大件的范式革命
现在路面跑的绿牌车越来越多了,尤其是运营类的车和上海这种“送绿牌”的城市。
更关键是的:除了特斯拉,绿牌车几乎全是国产车。
发生了什么?
电池、电机、电控这三电
替换了传统燃油车的三大件
。
换句话说,除了四个轮子,几个沙发,一个铁皮壳子外,造车的逻辑和范式发生了颠覆性的改变。
什么是弯道超车的机会,这估计算是一个吧?
对于造车新势力和老一批国产车企来说,大家都是从0开始,既没有技术负债也没有多少先验经验。
某种意义上来说,过去的“技术积累”反而可能成为“负债”,比如几乎全部扑街的“油改电”的车型。
由于排放法规驱动的电动驱动时代的到来。核心技术与造车逻辑的改变,几乎重新发明了汽车,于是才有了小鹏可以反向向大众进行电车技术扶贫的发生。
这种事,3年前再疯狂的预言家也不相信会发生吧。
我不懂车,还是言归正传,说CUDA
。
CUDA还香么?
过去,绝大多数AI模型面临的计算问题基本都是Compute Bound
,所以大家都在瞄着NVIDIA
的数据中心主流GPU
“怒怼”计算单元,刷高TOPS/TFLOPS
数据。NVIDIA也不慌不忙的逐代提升Tensor Core
的算力,轻描淡写的予以“理论算力”压制。
大模型的爆发,对于AI计算加速芯片的需求可以说几乎也是“颠覆性”的。
面对大模型的计算特性需求,现在面临的问题是Menory Bound
和IO Bound
了,准确的说是存储带宽、容量与互联带宽受限的问题了。
算力,重要么?还是挺重要的。
有多重要?只要能保证把带宽上限传输的数据能算完就好,留点富裕就行,再多的算力除了围观、浪费功耗、发热,也没啥用了。
先看存储。
黄教主再狠,DDR
这玩意也要买。
说起来按摩店也是真没地方说理去。自己拉着SK海力在内的一众伙伴一起完成了HBM
的落地,最后确给NVIDIA做了嫁衣。
传统的DDR
市场本来就剩下三个玩家:三星、SK海力士、美光,HBM
仅仅改变了DDR
封装形式,所以,能搞出来的供应商只会少,不会多。
再看互联。
黄教主有NVLink
。
我们没有NVLink
,但是我们可以有CXL
或CCIX
。
而且,美帝对互联带宽的上限是画了红线的,自研决心和技术再强,红线就哪里等着你。
最后看模型。
这个不多说了,大家已经讨论了很多很多了。
大模型时代,只要“大力出奇迹”这个模型构建范式不变,就算是GPT
这种Decoder-Only
的网络架构发生变化,Menory Bound
的问题就很难反转回Compute Bound
。
回到Decoder-Only
架构,这里面有有多少CUDA
算子?或者说CUDA
的支持对于加速这种网络结构计算有多大用?
NVIDIA
用FasterTransformer
做了解释:还是手写Kernel香。
单说推理,Georgi Gerganov
用llama.cpp
让大家知道这事其实有多简单。
大模型时代,不需要动辄就考虑Pytorch
的2000+的OP
问题了。
HBM
能拿到产能,存储容量和带宽就确定了。
互联带宽,红线就在哪里等着,红线以内,大家做到都不是问题。
过去几年,不管是DSA
还是GPGPU
还是GPU+
,大家已经解决了AI计算IP
的设计与手写Kernel
的问题。
新的边界条件使问题的主要矛盾与次要矛盾发生了翻转。
而,当这个新的主要矛盾核心解在供应链和协议栈的时候,我们就要思考下,过去解决问题的思路还适合新问题么?
或者说:
兼容CUDA
在大模型这件事中还有多少意义?
汽车工业从燃油到电动的转变过程中,让过去 造车范式中苦苦的模仿者、兼容者、追随者,看到并抓住了在新的三电范式下超越的机会。
电池、电机都由供应商决定了参数上限,就拼电控、车机和辅助驾驶的研发实力了。
DDR
容量和带宽都由供应商决定了参数上限,大模型的爆发及持续演进,会不会成为 CUDA
的三电时刻?
欢迎加我的微信“doubtthings”,欢迎交流与探讨。
欢迎关注我的公众号“书不可尽信”,原创文章第一时间推送。