1.5 大数据与人工智能
大数据使得人工智能技术开始了新的发展,而人工智能技术也深刻地影响着搜索引擎。例如,在传统的搜索方式中需要通过搜索尽可能显示全面的信息,而现在只需要显示满足用户需求的信息即可。
1.5.1 人工智能的发展
大数据人工智能是建立在大数据基础之上的人工智能技术。人工智能(Artificial Intelligence, AI)是对人类的意识、思维及信息处理过程的模拟。曾经很多人都说人工智能“已死”,一直处于停滞不前的状态;但是伴随着近几年大数据的发展,人工智能似乎“死而复生”,获得了新的发展机遇。而搜索引擎利用人工智能技术的原因是希望其搜索结果更加精准,甚至直接命中答案。在目前的各行业中,人工智能技术不断发展,各大公司不断开放其与人工智能相关的平台或产品,如Google的TensorFlow、百度的PaddlePaddle、微软的CNTK、Facebook的Torch等。
人工智能技术是计算机科学发展的重要分支。从1956年在达特茅斯会议上诞生开始,人工智能技术经历了两次大起大落。它的第一个黄金年代是1956—1974年,在这个阶段中,计算机逐渐可以解决代数应用相关问题,LISP语言也在1960年诞生,是令人振奋的一个开端。但是后来由于对人工智能的过度乐观,导致研究项目甚至不能如期完成,研究者的项目资助也出现了问题,甚至连哲学家也开始反对人工智能。1974—1980年是人工智能发展的低谷期。
从历史的角度来分析,每一次的失败都在为下一次的发展做铺垫,技术的发展就如过山车一般。后来的专家系统程序在人工智能领域发展势头较好,得到了不少企业的认可,使得从1980年开始,人工智能技术似乎迎来了新的繁荣。但是这再次验证了期望和失望是成正比的。好景不长,仅仅在7年之后,人工智能的冬天又到来了。好事多磨,直到20世纪90年代中期以后,人工神经网络的研究取得新进展,以深蓝战胜国际象棋的世界冠军为里程碑,再加上计算机性能伴随着摩尔定律疯狂增长,似乎又进入了新的人工智能时代。尤其在当前的大数据和云计算时代,数据的多样性和丰富性逐渐显现,数学模型和算法也在不断改进,人工智能仿佛迎来了它的第三次繁荣。
2016年3月,Google的人工智能围棋程序AlphaGo对战世界围棋冠军、职业九段选手李世石,并以4∶1的总比分获胜,人工智能再次展现出蓬勃的生命力。
在当前的技术发展趋势下,人工智能(弱人工智能)已经不刻意去研究模拟人脑,而是利用大数据通过计算机视觉、数据挖掘、统计理论,深化演绎、推理、归纳去解决现实中的各类问题。人工智能对互联网的促进作用是不言而喻的,如现实中的指纹识别、人脸识别、视网膜识别、专家系统等,都是人工智能的实际应用案例。
任何技术的发展之路都是崎岖的,人工智能则是典型的代表。从科学技术发展史来看,技术解决人类的需求是永无止境的,无论现在的人工智能发展到哪个水平,它对于搜索引擎的促进作用都是潜移默化的,两者在未来的发展中将更加紧密相连。机器学习作为现代搜索引擎的基本工具,在搜索引擎的多样性、个性化、准确性方面有着举足轻重的作用,成为当代搜索引擎智能化的标志。因此,我们应以一种坦然和宽容的态度来对待人工智能技术,它的进步焦点不在于能否超过人类的智慧,而在于能否帮助人类更好地生活。
1.5.2 人工智能技术
大数据人工智能技术在应用层面包括机器学习、人工神经网络、深度学习等技术,它们都是现代人工智能的核心技术。在大数据的背景下,这些技术得到了质的提升。
(1)机器学习。机器学习又被称为统计学习理论,是指通过数据分析获得数据规律,并将这些规律用于预测或判定其他未知数据。机器学习目前已经广泛应用于数据挖掘、自然语言处理、语音识别等领域,尤其是在搜索引擎领域。在海量数据面前,机器学习的方法成效显著,具体算法包括决策树、感知器、支持向量机、马尔科夫链、最近邻居法等。
(2)人工神经网络(Artificial Neural Network, ANN)。人工神经网络是机器学习的一种重要算法。在人工智能技术中,人工神经网络是常用的方法之一,它是一种模仿生物的神经网络结构和功能的数学模型,也是一种自适应的计算模型,通过感知外部信息的变化来改变系统的内部结构。人工神经网络由许多神经元组成,神经元之间相互联系,构成信息处理的庞大网络。假设做一件事情有多种途径,那么人工神经网络会告知用户哪种途径是最佳方式。人工神经网络的优势在于,它是一个能够通过现有数据进行自我学习、总结、归纳的系统,能够通过推理产生一个智能识别系统。
(3)深度学习(Deep Learning)。深度学习是机器学习的重要分支。深度学习的模型框架有很多,如深度神经网络、卷积神经网络、递归神经网络等。作为多层非线性神经网络模型,深度学习拥有强大的学习能力,它与大数据结合,再利用云计算、GPU并行计算等技术,使得其在图形图像、视觉、语音等方面获得较高评价,被大众视为人工智能前进的重要一步。
除此之外,人工智能的基本技术包括自然语言处理、知识表示与知识库技术、推理技术、搜索技术(问题求解)等。而这些技术也是当前搜索引擎的基础,结合大数据,将对搜索引擎产生潜移默化的影响。
(1)自然语言处理。用户常常通过不断更换、调整搜索词来获得更精准的搜索结果。大数据时代背景下的搜索引擎更需要了解用户的搜索意图,以减少用户的搜索次数。而自然语言处理就是帮助搜索引擎理解用户意图的重要方法之一。自然语言处理不仅需要对用户的搜索进行分词,还需要进行语义分析,甚至信息拆解。自然语言在搜索引擎中的处理过程不仅针对用户的搜索,还包括对网页文档的分析、对表述观点的分析等。虽然目前自然语言处理中的一些模块已经做得很好,但是在大数据时代背景下,自然语言处理还有很大的提升空间。
(2)知识表示与知识库技术。其主要目标是存储知识。一种好的存储方式可以让程序更加灵活。其涉及的问题包括“知识的本质是什么”“如何表示知识”“表示方式是否通用”等。在搜索引擎中,知识图谱作为现在知识表示和知识库技术的呈现,虽然研究者不确定它是否是知识表示和知识库技术的最终表现形式,但是它至少已经为搜索引擎带来了巨大的改变。
(3)推理技术。推理作为人类思维中解决问题的主要思考模式,主要利用知识之间的关系,获得推导信息的过程与结论。推理包括演绎推理、归纳推理和默认推理。例如,已知明明的爸爸是大明,而大明的爸爸是老明,根据已知条件,能够推理得出明明的爷爷是老明。
(4)搜索技术。搜索技术不是搜索引擎技术的简称,而是人工智能领域的专业术语,它实质上是一个求解问题的过程,简单的如“八皇后问题”“九宫图”“河内塔”等。在传统的算法或游戏中,搜索技术在寻求一个问题的最佳解决办法;搜索引擎也一样,在给用户寻找最佳答案。