白话从文本生成图片的人工智能 -中联科创

作者：中联科创特约嘉宾尹智

白话从文本生成图片的人工智能 —— 某text to text语言生成式大型AI模型火了，带火了AIGC，接连有人找我讲讲AIGC的一些模型，我就不再蹭那个语言模型的热点，这次用白话解释一个非常成功的Text to Image- 从文本生成图片的模型 "stable diffusion" : 说实话，我刚看完论文解读时，觉得要向非理工科背景的同仁们解释清楚从文本生成图片的原理，简直是不可能的任务。这个模型需要用到一大堆高等数学，概率论，统计学，计算机学，想绕开这些讲，都不知道从哪下手。后来一想，觉得可能可以用一个比喻来类比 : 比如一个人想学习组装汽车，怎么学呢？一种比较有效的方式，是先去拆车，把一辆车拆解开，再一步步

拼回去；如果每一步都做对了，这个人就算是会组装这类车了。那其他类的车怎么办？其实大多数车组装的基本原理思路都差不太多，如果加上指令或说明书，八九不离十，这一类车能拼，别的车也能拼。Stable diffusion模型从文字作图，就是这个思路。作图，也就是组装像素，把一大堆像素拼对了，也就做出画了。过程跟拆车一样，AI先把一幅干净的图，逐渐加入噪音，相当于把好零件（像素）逐渐拆了，等全是噪音了（拆完了），再一点点恢复原画（往回组装零件）。中间过程，通过检验AI模型是否恢复了前一个状态的画，来训练AI的参数（相当于人通过反馈来学习如何把零件拼成前一个状态的车），直到完全把原画恢复了（组装完了），AI也就掌握了怎么创作一幅画的技能了。当然，这只是一幅画啊，AI怎么可能通过掌握画一幅画而知道创作别的画呢？因为再次创作时，人类是输入文本的（用文字描述，我想画一幅什么样的画），这相当于给出了组装另一类车的说明书—— 所以AI掌握了一类车的组装方式，加上说明书，就可以组装另一类车了 —— 也就是组装另一堆像素，也就是，根据文本生成另一种画。—— 仅代表尹智个人观点 Ken's personal view only