网站首页

产品中心

智能终端处理器 智能云服务器 软件开发环境

新闻中心

关于PG电子

公司概况 核心优势 核心团队 发展历程

联系PG电子

官方微信 官方微博
主页 > 新闻中心

人工智能的感想

发布时间:2023-10-25 08:08浏览次数: 来源于:网络

  最近 因为没有了论文的压力 导师又让我有意无意的接触到了自然语言处理,很是开心 但也涌现出了很多想法:

  远古时代,智能推理用的最多的就是符号学习 也就是对一些先后关系进行了逻辑命名,然后进行逻辑运算。最后导出想要导出的一些结论。由于逻辑的空间终究太大,符号学习最终是消失在历史长河中。

  机器学习,是统计过去的一些数据得到新的数据预测。也就是说算出(s1,...,sn)同时出现的可能性来做预测。机器学习所代表是数字运算,也就是我要把以前数据数字化,标签数字化,然后去学习一个函数。利用数字的大小来做区分是机器学习的一个核心。

  机器学习,其本质是认定,出现一个东西,肯定有另外一些现象同时出现。那表示推理是因为x1,x2,x3。。。的出现,最终导致了y的出现。那这里就会涉及一个问题:另外一些现象(我们称为特征)如何数字化呢??

  简单点的,就是如果是类别,那就是one-hot编码。如果本身特性是连续的,如房价,温度,那就用连续的数字去表示。这样看的话,数字运算是能表示推理的。

  但是,如果涉及到文本分类呢?我们又该对文本中的语言进行向量化呢?真正得到的这些数字能表示推理吗?

  在自然语言中,(且不看lstm这种网络的表征,本质是差不多的)我们经常用的word2vec来对文本进行数字化(形成向量),它的核心原理是什么呢?就是 我去学一个网络 这个网络输入是某个单词的周围的一些单词,然后去预测中间这个单词。那训练出来的中间层值 就是这个单词的向量化。那这个向量本质是什么呢?

  单词的分布式表示(嵌入表示)。即认为一个单词像像素那样,它能被很多通道表示。我们都知道,图像中的像素的话,它可以用RGB三个通道值表示(RGB三个通道上的值可以表示所有像素的值)。

  那word2vec最后学出来的就是这么个分布式表示,那它真正代表了什么逻辑呢? 时序逻辑。也就是说,中间的单词的分布式表示是和周围单词的分布式表示是相关的。(从傅里叶的角度看是,一个时序逻辑,时域函数是可以由多个频域空间上的函数累加得到的)。

  我们都知道,如果一个文本从逻辑上看,是诸如x-x1-x2...。看起来word2vec得到的分布式表征了这种时序逻辑,但其实是有问题的。这种分布式的数字化,没有将两种信息学到,(1)线)词的真正语义。

  word2vec学习的是周围相关单词之间出现的相关性。但语言修饰符众多,周围相关单词的时序并非真正时序逻辑。(bert为效果显著,其实就是在这里做了创新)。

  单词,不同的场景其实分为动词和名词之分,不同出现位置,以及不同的文档其表达的都不一样,但是最后学到的分布式表示值是唯一的,这显然不合理。(一个改进的方法是Doc2vec)。

  所以 数字化的运算只能满足部分的智能推理。很多场景因为数字化不能完全的将语义表达出来,遭受了挫折。

  图是一种有顶点,有结点的边。边表示了结点与结点之间的关系。如果我们能将文本(或者一种逻辑)表示成图,那是不是能将所有的语义(从逻辑层面看)表征出来了。

  DeepWalk是推荐系统里面的一个尝试工作,我把它用到自然语言处理。首先将段落表达是图,结点是单词,然后用随机游走去拿到一些时序逻辑(单词序列),用这个单词序列去学习word2vec,拿到分布式表示。

  这样是不是把文本的全部语义表达出来了。看起来可行,但本质存在一个致命问题,如何表达图???

  上面这种方法就是大名鼎鼎的图嵌入。图神经网络其实是提供了怎么对图进行学习,那本质上中间层环节做的就是图嵌入工作(像卷积操作呀,这些)。

  总结: 无论是图结构 还是 分布式表示 其实都无法表达语义内在的内容,特别是遇到 a+b = c 这种结构的。但是图的结构确实是做出来给智能推理推动的作用,也许未来的创新 在于产生新结构,给语义充分表达。

  与室友每次谈论到,找工作时,就很纠结和无奈,目前没有真正意义上的人工智能系统。大部分的工作是利用一些“算法”去学习大数据,然后辅助工业界做些数据分析与预测。

  我的一个定义: 真正人工智能是可编程的(即有操作系统),可反馈的(也是应该有操作系统)。

  我们从前面 发现 一种好的结构或知识(例如浅显易懂的图谱)能辅助或控制这个人工智能系统的怎么去学习数据。而不是像以往一样 机器学习 只是去拟合大数据去学到一个完美的函数。

  我们如果在一个操作系统中存在多种知识的结构,那这个操作系统就是可编程的也是可反馈的。

  研究生的两年,主要研究了深度学习对抗样本问题,但也看了强化学习,迁移学习(知识蒸馏),排序学习(listnet),生成学习,小样本学习,推荐算法,计算机视觉(主要是人脸识别),nlp。以上算是自己对未来人工智能的一点小想法。

下一篇:Alphabet首席执行官:公司对人工智能领域存在的机遇感到兴奋和充满信心
上一篇:锦鸡股份投资成立人工智能科技新公司

咨询我们

输入您的疑问及需求发送邮箱给我们