白话ChatGPT的又一根基: 迁移学习 -中联科创

作者：中联科创特约嘉宾尹智

白话ChatGPT的又一根基: 迁移学习 —— 前面聊过了ChatGPT的"T"是奠定的生成式人工智能基调的"Transformer"架构，那今天聊聊GPT的"P"，Pre-trained,字面上理解，预训练的，也就是拿一个预先训练好的大模型，基于这个大模型再做微调优化 —— 没错，ChatGPT乃至它前几代，都是基于更早的大模型，而不是一个什么横空出世的东西，而这种能基于已有模型做提升的能力，就叫"Transfer learning"迁移学习。

这就像武侠小说里经常写到，一个少年从武功小白一下成为内功深厚的高手，其实是机缘巧合接收了绝世高手的几十年功力的转移。为啥ChatGPT这类模型能把前辈模型的能力迁移过来呢？这就得说到人工神经网络的分层架构，虽然大模型里很多部分还是黑盒，但大体上，一个人工神经网络的每一大层，甚至一小层大致有什么作用，是基本上可以得知的，比如一个狗的图像识别的模型（语言类模型逻辑类似，但没有视觉模型那么直观，这里用视觉模型举例），有一些网络层是用来提取初级特征，比如轮廓，大体形状；有的层级是组合出部分局部特征的，就是鼻子，耳朵什么的；最后那些层级，是负责把前面的局部特征组合成一个判断出是否这是张狗的图片的输出的。前面那些网络层，其实不管输入是狗，是猫，是兔子，干的活都比较类似，是可以复用的，那如果要训练一个识别猫图片的模型，就可以把前面那些网络层级结构，甚至参数继承下来，"迁移"到一个新的网络结构，这个新结构可能只是调整了后端输出层级的部分架构和参数。这样形成的新模型，再用猫图片来训练，所需数据量会更少，收敛会大大提升。

ChatGPT的成功，就是建立在前面几代GPT的结构和参数上的，未来的GPT，也会持续基于预训练和迁移学习机制不断迭代改进。个人觉得，甚至会有很多行业版，领域版的模型，会迁移学习GPT家族的已有"内力"，比较快地在某一领域成为高手。 —— 仅代表尹智个人观点 Ken's personal view only