加入收藏 | 设为首页 | 会员中心 | 我要投稿 南昌站长网 (https://www.0791zz.cn/)- 终端安全、安全管理、数据治理、图像分析、大数据!
当前位置: 首页 > 站长资讯 > 动态 > 正文

人工智能技术已进入最新的时代

发布时间:2020-11-11 15:22:55 所属栏目:动态 来源:互联网
导读:我们现在想出的解决办法是这样的,就是把这两个空间投射到一个空间去,这个空间叫做语义的向量空间。 也就是说我们把符号变成向量,同时把特征空间的向量变成语义空间的向量。怎么做?一是通过 Embedding(嵌入)把符号变成向量,尽量保持语义不变,可惜现在
我们现在想出的解决办法是这样的,就是把这两个空间投射到一个空间去,这个空间叫做语义的向量空间。 也就是说我们把符号变成向量,同时把特征空间的向量变成语义空间的向量。怎么做?一是通过 Embedding(嵌入)把符号变成向量,尽量保持语义不变,可惜现在的方法都会引起语义的丢失,我们只能在投射的过程中让语义丢失得少。第二方面做的工作比较少,就是 Raising(提升),把特征空间提升到语义空间去,这主要靠学科交叉,靠跟神经科学的结合。只有这些问题解决以后,我们才能够建立一个统一的理论,因为过去的感知和认知是不同的处理方法,大家说不到一块,如果我们能够投射到同一空间去,我们就可以建立一个统一的理论框架,这是我们的目标。在语义空间处理就可以解决理解问题,但是这项工作是非常艰巨的。

 

介绍一项我们现在做的工作。人工神经网络为什么不能得到语义信息呢?人脑的神经网络为什么可以呢?差别就在这里,我们现在用的人工神经网络太简单了,我们正想办法把脑神经网络的许多结构与功能加进去,我们这里只用了「稀疏发电」这一性质,就可以看出一些效果,人脸、大象或者鸟的轮廓,神经网络可以把它提取出来。

 

还有一个办法就是把数据驱动跟知识驱动结合起来。 刚才讲了,人的智能没法通过单纯的大数据学习把它学出来,那怎么办?很简单,加上知识,让它有推理的能力,做决策的能力,这样就能解决突发事件。我们现在做的工作就是把这些结合起来,这是我们的基本思路,知识也好,数据也好,都投射到同一空间,然后都用同样的数学方法进行处理,这方面我们已经做了不少工作。

 

最后做一个总结,我们从这个坐标看人工智能,横轴代表领域的宽窄,从单领域到多领域、到开放领域。纵轴代表信息的确定性与完全性,从完全到不完全、从确定到不确定。在左下角代表最容易的,就是刚才讲的符合 5 个条件的,现在人工智能在这部分解决得非常好,我们用白色来表示它,AlphaGo 在这里,深蓝在这里,工业机器人在这里。现在我们正在向灰色地区去走,打牌,信息不完全,现在打德州扑克,一人对一人,计算机能战胜人类,多人对弈,计算机还不行,这是灰色地带,我们还可以做,为什么可以做?尽管打牌是不确定的,但是它在概率意义下是确定的,你拿的这副牌的概率,可以算出来,同花的概率是多少,排成顺的概率是多少,既然概率能算出来,最终人类肯定会被计算机打败。Watson 在右边,它的领域比较宽,但是它是确定性的,所以是在灰色的区域。往右上方去就比较难了,自动驾驶、服务机器人、大数据分析,它是一个大框,有的简单,有的困难,就自动驾驶来讲,专用道、行车很少,路况简单等,在白色或者灰色区,如果路况复杂就到了黄色区域,黄色区现在计算机还解决不好。最远的在哪儿呢?右上角,图灵测试。大家对图灵测试有很多误解,其实图灵测试是开领域问答,很难!索菲亚做得怎么样?很糟糕。自然语言理解也在这里,复杂环境下的决策在偏左一点的地方,这也是很难的。所以我们人工智能现在是从左下角往右上角走,我们现在处在出发点附近。有的人想把它用一些名词来区分人工智能的不同发展阶段,有专家问我,你的看法怎么样?我建议不要用新词,用新词往往说不清,很麻烦,有的人说现在是弱人工智能,以后是强人工智能,也有人说现在叫增强智能(Augmented Intelligence)也是 AI……概念太多说不清,还是简单一点,「我们正在通往真正 AI 的路上」,现在走得并不远,在出发点附近,人工智能永远在路上,大家要有思想准备,这就是人工智能的魅力。 大家为什么这么重视人工智能?因为我们永远在路上,这就吸引我们去解决这些问题,这些问题一旦解决了,人类的社会进步、人类的生活就会发生本质上的改变。

下面就涉及到具体怎么做了,我不详细说了,我就说结果,结果是有了常识以后,性能有了显著的改善,对话的质量提高了。这篇文章已经发表,有兴趣可以去阅读。

 

另外是准符号模型,深度学习、神经网络主要用来模拟感性行为,感性行为是一般很难采用符号模型,因为感性(感觉)没法精确描述。比如「马」,怎么告诉计算机什么叫做马?你说马有四条腿,什么叫做腿?你说细长的叫做腿,什么叫细?什么叫做长?没法告诉机器,因此不能用符号模型。目前用的办法就是我们现在说的神经网络或者准符号模型,也就是用人类同样的办法,学习、训练。我不告诉机器什么叫做马,只是给不同的马的图片给它看,进行训练。训练完以后,然后再用没见过的马的图片给它看,说对了,就是识别正确了,说不对就是识别不正确,如果 90% 是对的,就说明它的识别率是 90%。后来从浅层的神经网络又发展到多层的神经网络,从浅层发展到多层有两个本质性的变化,一个本质性的变化就是输入,深层网络一般不用人工选择的特征,用原始数据就行。所以深度学习的应用门槛降低了,你不要有专业知识,把原始数据输进去就行了。第二个是它的性能提高很多,所以现在深度学习用得很多,原因就在这个地方。
我们先看符号模型,理性行为的模型,举 Watson 的例子,它是个对话系统,我们现在所有做的对话系统都跟这个差不多,但是 Watson 做得更好些,它里面有知识库,有推理机制。沃森除了专家知识之外,还有大量互联网上大众的知识,还运用了多推理机制。请看,这就是 Watson 系统的体系结构。它里面有哪些知识呢?有很多,包括百科全书、有线新闻、文学作品等等。所有的知识用纸质来表示有 2 亿页,用存储量表示达到了 4TB。它能回答什么问题呢?用它的例子来说明。第一个问题,1974 年 9 月 8 日谁被总统赦免?这对美国人来讲很好回答,同样对计算机来讲也很好回答,你用这几个关键字「1974 年 9 月 8 日」、「被总统赦免」,就能在文献里头查出来是谁,他就是尼克松。也就是说根据问题中的关键字,可以在已有的文献里头直接找到答案,这就是一般的网络检索方法。

 

第二个问题,荧光粉受到电子撞击以后,它的电磁能以什么方式释放出来?我们用「荧光粉」、「电子撞击」、「释放电磁能」等关键词,也可以找到答案:「光或者光子」。这种方法就是平时网络搜索的原理,应该说没有什么智能。

 

回答下面的问题就需要「智能」了,跟智利陆地边界最长的是哪个国家?跟智利有陆地边界的国家可以检索到,它们是阿根廷和玻利维亚,但是谁的边境长?通常查不到。Watson 具备一定的推理能力,它从边界间发生的事件、边界的地理位置等等,经过分析推理以后就可以找出答案,它就是阿根廷。下一个问题也属于这种性质,跟美国没有外交关系的国家中哪个最靠北,跟美国没有外交关系的国家有 4 个,只要检索就行了,但是哪个国家最靠北,没有直接答案,但可以从其它信息中推导出来,比如各个国家所处的纬度、气候寒冷的程度等等分析出来,答案是北朝鲜。
首先我们如何评价目前人工智能取得的成果,我们的评价很简单,针对这 5 件事:

 

第一是深蓝打败人类国际象棋冠军;第二是 IBM 在电视知识竞赛中打败了美国的前两个冠军,这两件事是一种类型,后面的三件事是另外一种类型;即 2015 年微软在 ImageNet 上做图象识别,它的误识率略低于人类。还有百度、讯飞也都宣布在单句的中文语音识别上,它的误识率也略低于人类。还有一个是大家非常熟悉的 AlphaGo 打败了李世石。这 5 件事情都是机器在一定的范围内超过了人类,我们如何来评价这 5 件事?

 

大家一致认为这 5 件事之所以成功,是由于前面三个因素,一是大数据,二是计算能力提高,第三是有非常好的人工智能算法。这三个因素大家都讨论得非常多了,没必要我再来说,我现在要说的最后一个因素是被大家所忽略的,这个因素是说,这所有的成果必须建立在一个合适的应用场景下。这 5 件事虽然领域很不一样,但是它们都满足完全一样的条件,或满足下面的 5 个限制,首先你必须有丰富的数据或者丰富的知识,如果这两件东西没有,或者很少,你不用来谈人工智能,因为你无法实现无米之炊。人工智能唯一的两个资源,一个是数据,一个是知识。还有确定性信息、完全信息、静态的、单任务和有限领域。这 5 个条件里面任何一个条件不满足,现在的人工智能做起来就非常困难了。

第二个是确定性。

 

第三个是最重要的,需要完全的信息,围棋就是完全信息博弈,牌类是不完全信息博弈,围棋虽然复杂,但本质上只需要计算速度快,不要靠什么智能,可是在日常生活中,我们所有的决策都是在不完全信息下做的。

 

第四个是静态,包括按确定性的规律演化,就是可预测性问题,在复杂路况下的自动驾驶就不满足这一条;实际上它既不满足确定性,也不满足完全信息。

 

第五个就是特定领域,如果领域太宽他做不了。单任务,即下棋的人工智能软件就是下棋,做不了别的。

 

经济观察报:就是说在满足这五个条件的前提下,目前的人工智能是胜任部分工作的?


(编辑:南昌站长网)

【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容!

    热点阅读