一般经常使用的是hadoop 套件的备选工具 面向对象的编程语言 数据分析软件 虚拟化程序以及大数据集成系统
- MapReduce由Google创建,并且是Hadoop的主要组件。正如在之前的部分我们曾提到过的那样,这是任何大数据技术的核心。尽管这是Hadoop固有的特性,但它也可以在其他的大数据程序,例如MPP和NoSQL数据库(例如,MongoDB)。MapReduce最初是具有商业所有权的,但随着Yahoo在2006年提供了慷慨的资金支持,它以Hadoop的开源形式出现,并在两年内迅速受到广泛欢迎。作为一个著名的并行计算算法,它得以让数据库的查询建立在一个计算机集群上,任务可以分拆成小份,并跨越整个集群的节点。
- HDFS是Hadoop 分布式文件系统的简称,这是Hadoop系统所使用的文件系统。被Hadoop所处理的数据必须先导入到HDFS中,并备份在运行了Hadoop的计算机网络中。它的数据极限大约在30PB。
- Pig是针对Hadoop进行计算的一个高级编程语言(High-level programming language)。你可以将它视为Hadoop生态系统中各种操作的控制元件。它的性能是可扩展的。
- Hive是一个数据仓库程序,是以“类-SQL”语言进行访问使用的,他是为横跨Hadoop集群的数据设计的。并且它的性能是可扩展的。
- HBase、Sqoop以及Flume是Hadoop的数据库组件。HBase是一个可以运行在Hadoop环境上的列式数据库。它是基于Google的BigTable设计的,并且数据极限约为1PB。另外,它比直接在HDFS上访问数据要慢一些。这对于处理存在HBase里面的数据来说不是很好,对HBase对于归档和时间系列数据的计数很合适。Sqoop是一个将关系型数据库中的数据导入到HDFS中的程序。Flume与此类似,它关注于收集和导入各种数据源的日志和任务数据。
- Mahout是一个机器学习和数据挖掘算法的函数库,用于对存储在HDFS的数据进行处理。
- Zookeeper服务于Hadoop有一“群”各种各样功能的组件,所以调试管理以及协调程序是十分必要的。Zookeeper保证了整个套件的整合以及相对得简便操作。