告诉老莫，我想上`LLM`的车了

ChatGPT风靡全球，New Bing快速跟上，Google慌了阵脚，百度文新一言要与多项业务整合，过去未在AI领域见到投入的大佬纷纷入局，各有头有脸的大厂纷纷表示自家有“类ChatGPT”技术或者即将推出相关产品，好不热闹。

一夜之间搜索成为大型语言模型（LLM）应用之争的最大战场。

春暖花开，万物复苏，再偷懒了就不太合适了。

年后这段时间，两个热点，不能不参与一下的。

其实内心是抗拒追热点写GPT相关的文字，一方面自己知道自己的斤两，能写出来啥货色，自己心里有数，不懂的事情还是少瞎BB比较好，那种张嘴就来，一本正经胡说八道的脸皮，我真没有😫；当然，各种copy堆出来一篇水文的能力也不是没有，但是，这样做事极其没品，没意思。

最近，相关文章多的都快看不过来了，好好的恶补了下GPT相关领域知识。

其中OneFlow、机器之心组织翻译了不少高质量的文章，感谢袁进辉和赵云峰团队的无私、高效贡献。

在中国版OpenAI、中国版ChatGPT呼之欲出的大好形势下，发现好像没人“唱反调”，而我似乎比较擅长热闹中保持冷静，那么我来说几句不同的观点吧。

第一个热点显然就是高启强

春节后，感觉一夜之间不管是朋友圈还是平时闲聊，都有非常多的讨论，感觉完全跟不上节奏了，没有什么是与世界脱节让人更慌了。

做为一个基本不看电视，偶尔刷美剧的业余时间除了看书就极其无聊老年人，没办法，还是发挥下iPad买前生产力，买后爱奇艺的正确使用方式，花了一周补补课。

结尾真的太仓促了，一下子从前面的细腻人物刻画，娓娓道来的讲故事，变成了32倍快进的感觉：看了又好像没看，细节丢失太多，跟不上节奏。看有一种说法，本来是规划99集的，大幅压缩了，如果是这样，我倒是真想看看99集的版本。

不得不说，这个剧核心演员都具备大师级的表演能力，相信他们演的也很爽快。对于主角张颂文的表演能力，怎么膜拜都不过分。看到有人转的一段他过去“未红之前”走红地毯的视频，衣着、仪态、处事，真像极了卖鱼时期的高启强，或者说，那一段的表演更接近本色，对于他的一夜爆红，我只想说一句：

芙蓉生在秋江上，不向东风怨未开。

台上一分钟，台下十年功，含着金汤勺的那是个例，大多数人的成功都或多或少经历过蓄力、隐忍、等待，当然也许有很多人终其一生，都没有遇到他的“伯乐”，这就是人生吧。

个人觉得，《狂飙》能变成现象级剧集，以下两个“能力”可能是所有成功因素中最重要的：

产品力：好剧本加上导演讲故事的能力，是其核心产品力；
软实力：而一大批过去“默默无闻”的演员的高超演技就是其能成功的软实力。

我们需要意识到：现象级的产品，必有其独一无二的产品力和软实力。

事后诸葛亮容易，要在事前就能做出准确判断、给出怎样能成为“热剧”结论或者“指引”就非常难了。

很多时候，我们可以有很多模型去量化分析产品力。遗憾的是，对于软实力或许可以构建一定的分析模型，比如很多年前，只要讲到大数据，一定会讲的两个例子：《纸牌屋》的导演大卫·芬奇和主演凯文·史派西的组合，以及超市中的尿裤和啤酒的组合。但是，这些“模型”是否稳定真的不好说。

如果，这个“传说中”的模型或者分析方法是如此有效，为什么没有更多的“纸牌屋”出现，为什么所有大型超市这两年都在规模化的关店？所以啊，有些“知识”真就是段子或者噱头，早期忽悠忽悠，让不明真相的群众深以为然罢了。

再比如，那些“流量小生”各个在微博可能都是随随便便上热搜的，从人气这个角度看，个顶个的顶流，但是，堆“流量小生”的“热播剧”你知道哪个？又见过哪个是全民追剧的？

琢磨下，我们做芯片是不是也是这个逻辑？

要想产品卖的好，硬件本身产品力是基础，软实力需要靠围绕软件栈建设的各种能力去体现。

情怀、愿景，在早期融资有价值，在卖货阶段，几乎毫无意义。

启动自嗨模式，除了加速崩溃外，看不到任何对卖货的帮助。

所以，对公司来说，多找一批张颂文们可能就是快速构建软实力的最优途径了。

第二个当然是当红炸子鸡ChatGPT

做为一个熟练掌握各种编程语言安装及Hello World！写法的资深摸鱼人士，善于使用各类工具高效率的去解决问题，也是基本技能之一。

先说下对几个相关产品的使用感受吧。

在ChatGPT网站还没那么拥挤的时候，早早就开始各种测了，也接到微信里，让不明真相的群友小小的体验了下，只能说：卧槽，真强。

New Bing放出来排队的消息后，第一时间去排队了，结果人品爆棚（当然也不排除账号比较古老，也给微软做过贡献），没想到2月11日就拿到了测试资格。正好是周六，于是在家玩了一天，只能惊呼“卧槽，更强了”。不过，最近几天由于“胡言乱语”，微软把对话轮次限制了，明显体验没有那么好了。

Notion AI申请晚了，等了好久才拿到内测资格，毕竟是一个专注协作与知识管理的笔记类产品，能力倾向非常明确：辅助写作。在文本生成上能明显的感受到语料对生成能力的帮助。

Poe因为是Quora出品的，擅长什么基本就不言而喻了，再加上默认提供的Sage和Dragonfly均由OpenAI提供支持，而Claude则由Anthropic技术提供支持。所以整体能力是没有多少意外的。

稀宇科技的Glow评价好像也挺高，很可惜，我觉得他们应该请一个好一个点的“产品经理”了，我没有熬过APP的启动初始化引导就放弃继续玩了，交互太复杂了，完全是站在技术角度设计交互，而不是站在用户体验角度考虑问题。

心辰科技的Friday Chat好像是国内目前唯一正式上线了的中国版ChatGPT了，试用的最大感觉只能说是“意思是到了”。明显能感受到的是数据集不够多，但是一些事实知识的答案都是错的，貌似不太应该。具体体验暂且不表，下面会说一下。

先说几个想法

一孔之见，欢迎探讨。

先抛开效果来说，中国版的ChatGPT肯定能做出来，而且会不止一家能做出来，这个没什么悬念，就看年内到底几家发布了。

从知识的全面性角度猜测，估计在很长时间内都无法追上ChatGPT或New Bing现有能力，这个很长时间也许是3～5年，也许更长，看机器翻译会不会有突破性进展了。

从对话上下文的流畅度来评估，估计再过一年到两年内能解决，但是考虑到上一条的原因，可能流畅度只能和自己的演化对比，而没法做平行对比。

中国版的ChatGPT会有多强？特定领域知识也许可以打平，整体体验也许短期内，也许长期内都会比较糟糕，当然这可能不是一个纯技术问题占主导地位的问题。

为什么能做出来

整个市场气氛都烘托到这里了，懂不懂的都要说站出来两句了，都有“相关技术储备”要入局了，这个像不像之前的区块链，元宇宙，Web3，NFT的气氛🤣？

当然，上面是调侃，大家可以忽略。

虽然ChatGPT、GPT-3都没有开源，但是相关论文有，猜测OpenAI使用的数据集的，训练方法的，怎么复现避坑的文章也不少。

Meta的OPT-175B是开源的，甚至175B的Pretrained Model Weights填个申请也是能获取到的，训练过程的“血泪史”也贴心的提供了，对于怎么训练大模型一定有借鉴意义的。

当然，还有BLOOM 、GLM-130B这些开源项目作为参考。

以及还有Colossal-AI、Energon-AI、Alpa、FlexGen这些训练和推理的开源项目可以利用、参考。

另外，还有OneFlow这个对PyTorch友好的现成的专注分布式训练的团队在国内，在分布式这件事上，一定有更深的理解，也是可以借力的。

有一众开源项目的帮助，再加上各团队青年才俊的知识储备，不惜一切代价做这件事的时候，一定能做成，这个毫无疑问。

当然也不是说事情就这么简单，要是真这样，就不是制高点了，大家肯定不会争先恐后上车了。

想想就能有，只能去做梦，不能是做事。

算力的需求是第一个挑战。

多的不想了，谁家也没现成的2000张A100规模的集群准备好吧。事实上，别说完整集群，就是找2000张能腾出来长期给一个项目占用的土豪公司估计也没几家吧。我甚至怀疑没有一家能一下子说拿出来这么大算力。就能拿出来的，毕竟就算有卡，过去也几乎没有可能几千张卡怼成一个集群用的需求，所以，就算能咬咬牙停一些业务挤出来卡，IB网络的改造是跑不掉的，这需要点时间。

显然，直接买云计算平台的算力可能最简单直接，花钱能解决的事情，都不是大事。国内能不能买到不知道，实在不行还有美帝三家么。

复现GPT-3已经是一件非常难的事情了，怎么训练ChatGPT难度就更大了，训练技巧是需要面对的另一个挑战，这个不多说，我也不懂，有兴趣看看这篇：为什么所有GPT-3复现都失败了？使用ChatGPT你应该知道这些。

再一个挑战，也许是最难解决的一个问题，那就是数据集了。

一方面，OpenAI没说他们训练数据集的细节，现在全行业应该都靠猜了，具体可以看这一篇：ChatGPT数据集之谜。更重要的是，可以轻松获取到的中文语料的绝对数量和相对质量，显然是没办法和英文语料对比的，这个问题就带来了我的第二个观点。

为什么知识的全面性短期内很难追上

其实，提到中文语料的数量和质量，基本大家都明白这个问题的答案几乎是显而易见的。作为一个段子手，抖个机灵，相信没有人希望和中国版ChatGPT聊天的时候出现这样的对话吧：

我：请问你怎么看待中国团队很快就能复现并超过ChatGPT这件事？

答：谢邀，人在美国，刚下飞机。老规矩，你应该先问“是不是”，再问“为什么”……

多轮对话后

我：道理我都懂，你能具体说一下怎么训练出来一个ChatGPT么？

答：you can you up，no can no BB……

所以，是不是要先设计几个模型，做做语料的清洗，这个可能是个问题。

另外，关于“封闭”、“孤岛”的问题，点到为止，没必要细说，大家都能明白我在说什么。在这个人人都觉得自己掌握了“相关技术”马上推出相关服务的时间点上，语料就是生产力啊。

估计只有等到这一波大家都做完了，发现自己做的真有点儿强差人意，才有可能做下来谈谈怎么做语料的知识共享吧。

当然实在不行就先靠机器翻译了，但是想想这样导致的“机翻味”肯定是没法解决的。

为什么对话流畅度体验有可能很糟糕

这个事情没法展开说，依然点到为止，大家都是明白人，能懂。

这个事情其实挺难破的。

从数据集下手，不该学的不让他学，这个数据清洗的工作先不说能不能做成。只要清洗的狠了，知识不连贯或者知识断层，想都不用想肯定训练出来一个智障。

就算高手在民间，能解决清洗后的知识连贯问题，那么还要考虑参考LSTM的 遗忘门，改造网络结构，以便在需要的时候，随时告诉模型“这事儿兄弟你要忘了哦，别再瞎说了。”毕竟，从头训练一次成本太高、太高、太高了。

这条路在我的认知中是不靠谱的，只能想别的办法。

办法其实也简单，一句话：不许问，不回答。

不许问做到很容易么，就是现在搜索引擎做的事情，这个真不难。

不回答这个就有点不好办了。各种测试ChatGPT的文章相信大家看了不少，正着不能问就反着问；正面不回答，就启发式提问，慢慢诱导回答。

人民群众的智慧是无穷的！

为了保证结果的安全，显然只能在输出文本再增加一层过滤之后返回给用户。那么，问题来了：

是整句完全拦截，还是拦截关键字？

不多说了，大家可以去Friday Chat体验下哪种支离破碎的对话体验。

对AI芯片公司是不是“重大利好”？

好几个朋友私下里问了我这个问题。

虽然身在业内，当然期望把每个渺茫的商机都能抓住，但是，不能忽悠人啊。基于我的认知，说点我的想法吧。

免责申明：以下判断，仅代表个人观点，与本人服务的企业无关。

训练芯片

客观说，年内国产芯片能训练出来一个“能用的”ChatGPT希望不是很大，明年或许会有一点可能，但也不是太高。理由如下：

软件适配，算子适配，分布式框架适配，这些都是基本功，不多说；
不求更大了，就2000卡规模的集群，国产卡除了鹏程实验室华为的Atlas 900集群，应该没有第二家有了，至少目前没听到鹏程实验室说要做这事；
今年大家的目标其实就一个字“快”发布，没有任何动力与国产卡经历漫长的适配周期，延误战机；
等到明年真的在大模型上尝到甜头了，后续还有足够的资金投入的个别几家，在有了“降成本”的动力的情况下，可能会考虑试试看国产卡跑跑训练；
当然，这有一个前提：做训练卡的起码自己内部现有一个千卡集群，能复现几个开源项目的训练，而且能明显看到训练时间和能耗的下降，才能打动用户；
当前融资形势如此困难，自建个千卡集群，再招一批人不计成本的去复现训练，去优化算子性能、解决集合通信的瓶颈、整体加速线性度，做出来比较好看能打动潜在客户试试看的数据，真不知道能不能玩的起了；

如果是做“自主可控”，上面的话都当我没说过，今年肯定能训出来一个模型。

推理芯片

这篇文章：ChatGPT背后的经济账大家应该都看了吧？帐还是算的很精细了，七百多个G的模型，推理成本不是一个小数字。而且考虑到，大家现在开始准备上车，到模型训练出来，正式上线，这个时间差半年起步是有的。

这个半年的时间窗口，其实就是给各家推理芯片明年收入可能的增长的最大的礼物了：

可以集中人力，先想办法把几个开源的模型推理跑起来，解决大模型分布式推理和大多数算子性能，确保精度不掉，性能不差；
但是这里其实有个问题，现在大家做的推理卡基本都是对标T4和A10的，突然要和A100、A800去PK性能了，这个TCO怎么算，要琢磨下咯；
好消息是A100有钱也买不到了，存量卡肯定优先去跑训练了，A800什么时候能买到也不知道，推理自然有动力尝试下替代方案了；
跑这么大的模型，在模型能用，跑起来有效果，有长期使用打算了，给模型瘦身，这是必然需要考虑的事情了。INT8量化不说了，标准选项，至于剪枝和稀疏能不能不掉点，估计就要靠不断尝试了；
在这个时间窗口中哪家能先解决量化精度不掉点，并给出一套生产级的推理部署方案，也许就真的翻身了；
所以我到觉得大模型这个事情，也许是墨芯的一个极好的机会：INT8+高比例非结构化稀疏，有机会成为推理部署降成本的杀器；

做推理芯片的兄弟们，可以上车LLM咯。

当然自己没搞定，或者“潜在用户”没搞定，最后可能就是消耗了大量人力，竹篮打水了。

欢迎加我的微信“doubtthings”，欢迎交流与探讨。

欢迎关注我的公众号“书不可尽信”，原创文章第一时间推送。

告诉老莫，我想上LLM的车了