智慧校园_手机
智慧照明_手机
白话 计算机是如何 "理解"文字的?
发布时间:2023-02-13 17:24:30 TAGS:

作者:中联科创特约嘉宾尹智

白话 计算机是如何 "理解"文字的?如何知道文字和文字之间的关系的?——  首先计算机是不可能象人类一样看文字的,机器说到底只能处理一种符号,就是数字。


所以让机器理解文字的第一步,就是把文字变成数值,也就是,先把人类的文字- 自然语言,翻译成机器的语言 - 数值。怎么翻呢?举一个不是很精确的例子,如果狗有语言体系,对同一个词的描述角度,可能和人类语言完全不同,比如 "骨头"这个词,我们会用 "硬度""器官""支撑"等等这样的角度来表述,而在狗们的语言里,可能是用类似"食物""美味""营养"这种认知维度来描述,但这不妨碍我们指的是同一个词。同样的,计算机会使用完全不同于自然语言的维度来描述一个词,比如机器会定义"骨头"有三百个属性(即从三百个维度来定义这个词),而每属性都只是一个数字,并不对应任何人类语言文字,不归属任何一个我们认知中的表述维度。

机器所使用的维度空间,被称为"潜空间",这是机器的认识领域世界,是算法对原始数据压缩和提取特征后形成的维度空间。有的潜空间可以对应到人类能理解的维度范畴,有的则完全无法对应。实际上AI对任何自然信息的处理,文字,语音,图像,都得有这么一步,就是映射原始信息到"潜空间",只有在潜空间,机器才能get这些信息的含义和相互关系,也只有在潜空间,文本,影像,数据表等不同宗的数据才能融合并发生运算。当计算机为字典里每一个词都定义出了三百个属性,那每一个词就成为了一个三百维的向量,这就使得每个词,可以用线性代数的方式来计算,比如机器就可以通过向量加减,得到"国王"- "男性"+ "女性" = "王后",这样的词跟词之间的逻辑关系,这是自然语言处理AI最根本的道理。那计算机如何得出字典里每一个词的三百个属性,让这些属性能最好地表示词跟词之间的关系呢?目前最有效的方式,就是让人工神经网络自己学习出来,这个需要有人工神经网络的基本知识才能理解,就不多说了。—— 仅代表尹智个人观点 Ken's personal view only

阅读( 815)