1.5 大数据与人工智能_大数据搜索引擎原理分析-QQ阅读中文轻小说网

上QQ阅读APP看本书，新人免费读10天

设备和账号都新为新人

1.5 大数据与人工智能

大数据使得人工智能技术开始了新的发展，而人工智能技术也深刻地影响着搜索引擎。例如，在传统的搜索方式中需要通过搜索尽可能显示全面的信息，而现在只需要显示满足用户需求的信息即可。

1.5.1 人工智能的发展

大数据人工智能是建立在大数据基础之上的人工智能技术。人工智能（Artificial Intelligence, AI）是对人类的意识、思维及信息处理过程的模拟。曾经很多人都说人工智能“已死”，一直处于停滞不前的状态；但是伴随着近几年大数据的发展，人工智能似乎“死而复生”，获得了新的发展机遇。而搜索引擎利用人工智能技术的原因是希望其搜索结果更加精准，甚至直接命中答案。在目前的各行业中，人工智能技术不断发展，各大公司不断开放其与人工智能相关的平台或产品，如Google的TensorFlow、百度的PaddlePaddle、微软的CNTK、Facebook的Torch等。

人工智能技术是计算机科学发展的重要分支。从1956年在达特茅斯会议上诞生开始，人工智能技术经历了两次大起大落。它的第一个黄金年代是1956—1974年，在这个阶段中，计算机逐渐可以解决代数应用相关问题，LISP语言也在1960年诞生，是令人振奋的一个开端。但是后来由于对人工智能的过度乐观，导致研究项目甚至不能如期完成，研究者的项目资助也出现了问题，甚至连哲学家也开始反对人工智能。1974—1980年是人工智能发展的低谷期。

从历史的角度来分析，每一次的失败都在为下一次的发展做铺垫，技术的发展就如过山车一般。后来的专家系统程序在人工智能领域发展势头较好，得到了不少企业的认可，使得从1980年开始，人工智能技术似乎迎来了新的繁荣。但是这再次验证了期望和失望是成正比的。好景不长，仅仅在7年之后，人工智能的冬天又到来了。好事多磨，直到20世纪90年代中期以后，人工神经网络的研究取得新进展，以深蓝战胜国际象棋的世界冠军为里程碑，再加上计算机性能伴随着摩尔定律疯狂增长，似乎又进入了新的人工智能时代。尤其在当前的大数据和云计算时代，数据的多样性和丰富性逐渐显现，数学模型和算法也在不断改进，人工智能仿佛迎来了它的第三次繁荣。

2016年3月，Google的人工智能围棋程序AlphaGo对战世界围棋冠军、职业九段选手李世石，并以4∶1的总比分获胜，人工智能再次展现出蓬勃的生命力。

在当前的技术发展趋势下，人工智能（弱人工智能）已经不刻意去研究模拟人脑，而是利用大数据通过计算机视觉、数据挖掘、统计理论，深化演绎、推理、归纳去解决现实中的各类问题。人工智能对互联网的促进作用是不言而喻的，如现实中的指纹识别、人脸识别、视网膜识别、专家系统等，都是人工智能的实际应用案例。

任何技术的发展之路都是崎岖的，人工智能则是典型的代表。从科学技术发展史来看，技术解决人类的需求是永无止境的，无论现在的人工智能发展到哪个水平，它对于搜索引擎的促进作用都是潜移默化的，两者在未来的发展中将更加紧密相连。机器学习作为现代搜索引擎的基本工具，在搜索引擎的多样性、个性化、准确性方面有着举足轻重的作用，成为当代搜索引擎智能化的标志。因此，我们应以一种坦然和宽容的态度来对待人工智能技术，它的进步焦点不在于能否超过人类的智慧，而在于能否帮助人类更好地生活。

1.5.2 人工智能技术

大数据人工智能技术在应用层面包括机器学习、人工神经网络、深度学习等技术，它们都是现代人工智能的核心技术。在大数据的背景下，这些技术得到了质的提升。

（1）机器学习。机器学习又被称为统计学习理论，是指通过数据分析获得数据规律，并将这些规律用于预测或判定其他未知数据。机器学习目前已经广泛应用于数据挖掘、自然语言处理、语音识别等领域，尤其是在搜索引擎领域。在海量数据面前，机器学习的方法成效显著，具体算法包括决策树、感知器、支持向量机、马尔科夫链、最近邻居法等。

（2）人工神经网络（Artificial Neural Network, ANN）。人工神经网络是机器学习的一种重要算法。在人工智能技术中，人工神经网络是常用的方法之一，它是一种模仿生物的神经网络结构和功能的数学模型，也是一种自适应的计算模型，通过感知外部信息的变化来改变系统的内部结构。人工神经网络由许多神经元组成，神经元之间相互联系，构成信息处理的庞大网络。假设做一件事情有多种途径，那么人工神经网络会告知用户哪种途径是最佳方式。人工神经网络的优势在于，它是一个能够通过现有数据进行自我学习、总结、归纳的系统，能够通过推理产生一个智能识别系统。

（3）深度学习（Deep Learning）。深度学习是机器学习的重要分支。深度学习的模型框架有很多，如深度神经网络、卷积神经网络、递归神经网络等。作为多层非线性神经网络模型，深度学习拥有强大的学习能力，它与大数据结合，再利用云计算、GPU并行计算等技术，使得其在图形图像、视觉、语音等方面获得较高评价，被大众视为人工智能前进的重要一步。

除此之外，人工智能的基本技术包括自然语言处理、知识表示与知识库技术、推理技术、搜索技术（问题求解）等。而这些技术也是当前搜索引擎的基础，结合大数据，将对搜索引擎产生潜移默化的影响。

（1）自然语言处理。用户常常通过不断更换、调整搜索词来获得更精准的搜索结果。大数据时代背景下的搜索引擎更需要了解用户的搜索意图，以减少用户的搜索次数。而自然语言处理就是帮助搜索引擎理解用户意图的重要方法之一。自然语言处理不仅需要对用户的搜索进行分词，还需要进行语义分析，甚至信息拆解。自然语言在搜索引擎中的处理过程不仅针对用户的搜索，还包括对网页文档的分析、对表述观点的分析等。虽然目前自然语言处理中的一些模块已经做得很好，但是在大数据时代背景下，自然语言处理还有很大的提升空间。

（2）知识表示与知识库技术。其主要目标是存储知识。一种好的存储方式可以让程序更加灵活。其涉及的问题包括“知识的本质是什么”“如何表示知识”“表示方式是否通用”等。在搜索引擎中，知识图谱作为现在知识表示和知识库技术的呈现，虽然研究者不确定它是否是知识表示和知识库技术的最终表现形式，但是它至少已经为搜索引擎带来了巨大的改变。

（3）推理技术。推理作为人类思维中解决问题的主要思考模式，主要利用知识之间的关系，获得推导信息的过程与结论。推理包括演绎推理、归纳推理和默认推理。例如，已知明明的爸爸是大明，而大明的爸爸是老明，根据已知条件，能够推理得出明明的爷爷是老明。

（4）搜索技术。搜索技术不是搜索引擎技术的简称，而是人工智能领域的专业术语，它实质上是一个求解问题的过程，简单的如“八皇后问题”“九宫图”“河内塔”等。在传统的算法或游戏中，搜索技术在寻求一个问题的最佳解决办法；搜索引擎也一样，在给用户寻找最佳答案。