AI大模型的"瘦身"之路，并不容易-中联科创

作者：中联科创特约嘉宾尹智

AI大模型的"瘦身"之路，并不容易——

周一跟一些企业创始人和高管聊AI大模型如何能深度融合产业赋能价值创造，大家不约而同提到一个问题 : 大模型虽好，何以为我用？

大模型定制化的挑战，在于对算力和数据的高门槛需求—— 试想GPT3 一次训练的成本就上千万美元 —— 使得目前每家企业，甚至每个行业做一个专有大模型是不太现实的，微软的deepspeed-chat框架，个人理解也还只是个简易复刻ChatGPT的框架。能不能直接用现成的一个大模型来为不同行业服务呢？在有通用性的领域，比如市场，HR，问题不大；在产业/企业的专有领域，有难度，因为目前的大模型是具备常识的"通才"，要让其为一个行业服务，就得用大量行业企业数据/经验去培训这个通才（如果真这么做，通才很快能成为专才，毕竟通识能力在那），但这不太行得通，行业企业数据隐私是一个问题，更大的问题是加入全新的行业/领域的专识/能力又会需要大模型再来训练，这个训练成本谁来担呢？（这个问题下回细谈，"知识"可以通过外挂来增加，而"智能"得需要重新训练模型）

那能不能把大模型定制"压缩"一下，形成一个行业版的小模型，再来做"微调"训练呢？这是个符合逻辑的好思路，但目前来看，也很不容易。因为大模型里头是一个百亿千亿参数的黑盒，意味着我们并不太清楚，针对哪些行业/领域特点来"裁剪"和"萃取"大模型 —— 大模型并不是一个功能逻辑明确，模块分工清晰的可拆卸机器。我在讲课时经常用这样一个比喻，大模型是一个有几十几百上千亿个控制旋钮的精密机器，问题是，我们并不知道哪些旋钮控制哪些功能，我们其实也不知道怎么去手工调整这些旋钮的值，所以我们只能靠数学的方式找到一个大方向反复试，直到试出来一个这些旋钮值的最佳组合 —— 这就是目前语言大模型的训练方式。因为我们不知道哪些部分可以"拆卸"，哪些部分可以"浓缩"，哪些部分可以被"萃取"，所以小模型经常是要么效果不好，要么还是得比较大。从GPT2到GPT3 到ChatGPT，GPT4就都发生过这种情况，一旦人工神经网络的参数量提上去了，网络的成绩表现不知怎么就好起来了 —— 专业术语叫能力的"涌现"，而一旦参数量下来了，确实表现就差了下来。

所以瓶颈就在这里，一个功能无比牛的机器，但奇贵无比，想要在每个行业定制一个吧，完全复制成本太高；做一个相对便宜的精简版吧，又不知道精简原机器的哪个部分。

那怎么办呢？垂直行业/领域就用不上基于大模型的专有模型了？或者只能用规定领域人设的方法变着法用点通用能力？比如设定大模型就是个物流专家，更有效地在物流领域对话，写文稿？个人觉得，近期还是得从"蒸馏"大模型的知识体系找思路。大模型不"瘦身"，太重，是很难在行业落地的。还是得找到"通才"跟行业相关的能力部分，"剪裁"掉其他跟行业关系不太大的部分（比如一个做物联网控制的专业模型，可能就不太需要那么复杂自然语言处理能力），把大模型定制"提炼"成行业版专业模型，再基于这个专业模型用私域数据做训练。相当于找到一个"偏科"，但是有基本常识的"半通才"，去培训这个"半通才"成为"专才"。大模型这个通才的"通"，是有高代价的，在没有搞清楚通用人工智能的机理之前，用"不那么通"，来交换一些成本，是有实际意义的。—— 仅代表尹智个人观点 Ken's personal view only