Hadoop集群程序设计与开发
上QQ阅读APP看书,第一时间看更新

1.3.4 Hadoop在大数据中扮演的角色

云计算是一种可供用户进行个性化定制的、可以存储共享数据及用户应用程序的公用资源的模式。Hadoop在这种资源模式下,成为云计算的PaaS层的解决方案之一。大数据强调的是当数据量规模巨大到无法通过人工在合理时间内正确解读、处理数据信息时,采取的高效处理技术。Hadoop是Apache的一个开源项目,它是一个对大量数据进行分布式处理的软件架构,框架最核心的设计就是:为海量的数据提供了存储的HDFS技术,以及为海量的数据提供了计算的MapReduce技术。它具有低成本、高可靠性、高吞吐量的特点。尤其在数据仓库方面,Hadoop是非常强大的,但在数据集市及实时的分析展现层面,Hadoop也有着明显的不足。

因此,可以把Hadoop理解为大数据技术中的一种解决方案的软件架构,它的出现极大地降低了大数据项目的研究实现对人的要求。同时,国内一些企业也在它的基础上发展了更加完善的产品,如华为的FusionInsight,它是基于Apache开源社区的、以Hadoop为核心的软件,进行功能增强的企业级大数据存储、查询和分析的统一平台。它以海量数据处理引擎和实时数据处理引擎为核心,并针对金融、运营商等数据密集型行业的运行维护、应用开发等需求,打造了敏捷、智慧、可信的平台软件、建模中间件及OM系统,让企业可以更快、更准、更稳地从各类繁杂无序的海量数据中发现全新价值点和企业商机。阿里巴巴、百度等知名公司都基于Hadoop在云项目及大数据项目上进行了应用。