智慧校园_手机
智慧照明_手机
白话 从文本生成图片 的人工智能
发布时间:2023-02-13 17:27:53 TAGS:

作者:中联科创特约嘉宾尹智

白话 从文本生成图片 的人工智能 ——  某text to text语言生成式大型AI模型火了,带火了AIGC,接连有人找我讲讲AIGC的一些模型,我就不再蹭那个语言模型的热点,这次用白话解释一个非常成功的Text to Image- 从文本生成图片 的模型 "stable diffusion" : 说实话,我刚看完论文解读时,觉得要向非理工科背景的同仁们解释清楚从文本生成图片的原理,简直是不可能的任务。这个模型需要用到一大堆高等数学,概率论,统计学,计算机学,想绕开这些讲,都不知道从哪下手。后来一想,觉得可能可以用一个比喻来类比 : 比如一个人想学习组装汽车,怎么学呢?一种比较有效的方式,是先去拆车,把一辆车拆解开,再一步步


拼回去;如果每一步都做对了,这个人就算是会组装这类车了。那其他类的车怎么办?其实大多数车组装的基本原理思路都差不太多,如果加上指令或说明书,八九不离十,这一类车能拼,别的车也能拼。Stable diffusion模型从文字作图,就是这个思路。作图,也就是组装像素,把一大堆像素拼对了,也就做出画了。过程跟拆车一样,AI先把一幅干净的图,逐渐加入噪音,相当于把好零件(像素)逐渐拆了,等全是噪音了(拆完了),再一点点恢复原画(往回组装零件)。中间过程, 通过检验AI模型是否恢复了前一个状态的画,来训练AI的参数(相当于人通过反馈来学习如何把零件拼成前一个状态的车),直到完全把原画恢复了(组装完了),AI也就掌握了怎么创作一幅画的技能了。当然,这只是一幅画啊,AI怎么可能通过掌握画一幅画而知道创作别的画呢?因为再次创作时,人类是输入文本的(用文字描述,我想画一幅什么样的画),这相当于给出了组装另一类车的说明书—— 所以AI掌握了一类车的组装方式,加上说明书,就可以组装另一类车了 —— 也就是组装另一堆像素,也就是,根据文本生成另一种画。—— 仅代表尹智个人观点 Ken's personal view only

阅读( 595)