智慧校园_手机
智慧照明_手机
AI大模型的"瘦身"之路,并不容易
发布时间:2023-04-19 19:32:06 TAGS:

作者:中联科创特约嘉宾尹智

AI大模型的"瘦身"之路,并不容易—— 

周一跟一些企业创始人和高管聊AI大模型如何能深度融合产业赋能价值创造,大家不约而同提到一个问题 : 大模型虽好,何以为我用? 


大模型定制化的挑战,在于对算力和数据的高门槛需求—— 试想GPT3 一次训练的成本就上千万美元 —— 使得目前每家企业,甚至每个行业做一个专有大模型是不太现实的,微软的deepspeed-chat框架,个人理解也还只是个简易复刻ChatGPT的框架。能不能直接用现成的一个大模型来为不同行业服务呢?在有通用性的领域,比如市场,HR,问题不大;在产业/企业的专有领域,有难度,因为目前的大模型是具备常识的"通才",要让其为一个行业服务,就得用大量行业企业数据/经验去培训这个通才(如果真这么做,通才很快能成为专才,毕竟通识能力在那),但这不太行得通,行业企业数据隐私是一个问题,更大的问题是加入全新的行业/领域的专识/能力又会需要大模型再来训练,这个训练成本谁来担呢?(这个问题下回细谈,"知识"可以通过外挂来增加,而"智能"得需要重新训练模型)

那能不能把大模型定制"压缩"一下,形成一个行业版的小模型,再来做"微调"训练呢?这是个符合逻辑的好思路,但目前来看,也很不容易。因为大模型里头是一个百亿千亿参数的黑盒,意味着我们并不太清楚,针对哪些行业/领域特点来"裁剪"和"萃取"大模型 —— 大模型并不是一个功能逻辑明确,模块分工清晰的可拆卸机器 。我在讲课时经常用这样一个比喻,大模型是一个有几十几百上千亿个控制旋钮的精密机器,问题是,我们并不知道哪些旋钮控制哪些功能,我们其实也不知道怎么去手工调整这些旋钮的值,所以我们只能靠数学的方式找到一个大方向反复试,直到试出来一个这些旋钮值的最佳组合 —— 这就是目前语言大模型的训练方式。因为我们不知道哪些部分可以"拆卸",哪些部分可以"浓缩",哪些部分可以被"萃取",所以小模型经常是要么效果不好,要么还是得比较大 。从GPT2到GPT3 到ChatGPT,GPT4就都发生过这种情况,一旦人工神经网络的参数量提上去了,网络的成绩表现不知怎么就好起来了 —— 专业术语叫能力的"涌现",而一旦参数量下来了,确实表现就差了下来。

所以瓶颈就在这里,一个功能无比牛的机器,但奇贵无比,想要在每个行业定制一个吧,完全复制成本太高;做一个相对便宜的精简版吧,又不知道精简原机器的哪个部分。

那怎么办呢?垂直行业/领域就用不上基于大模型的专有模型了?或者只能用规定领域人设的方法变着法用点通用能力?比如设定大模型就是个物流专家,更有效地在物流领域对话,写文稿?个人觉得,近期还是得从"蒸馏"大模型的知识体系找思路。大模型不"瘦身",太重,是很难在行业落地的。还是得找到"通才"跟行业相关的能力部分,"剪裁"掉其他跟行业关系不太大的部分(比如一个做物联网控制的专业模型,可能就不太需要那么复杂自然语言处理能力),把大模型定制"提炼"成行业版专业模型,再基于这个专业模型用私域数据做训练。相当于找到一个"偏科",但是有基本常识的"半通才",去培训这个"半通才"成为"专才"。大模型这个通才的"通",是有高代价的,在没有搞清楚通用人工智能的机理之前,用"不那么通",来交换一些成本,是有实际意义的。—— 仅代表尹智个人观点 Ken's personal view only

阅读( 571)