how to be a data scientist 08

一般经常使用的是hadoop 套件的备选工具面向对象的编程语言数据分析软件虚拟化程序以及大数据集成系统

MapReduce由Google创建，并且是Hadoop的主要组件。正如在之前的部分我们曾提到过的那样，这是任何大数据技术的核心。尽管这是Hadoop固有的特性，但它也可以在其他的大数据程序，例如MPP和NoSQL数据库（例如，MongoDB）。MapReduce最初是具有商业所有权的，但随着Yahoo在2006年提供了慷慨的资金支持，它以Hadoop的开源形式出现，并在两年内迅速受到广泛欢迎。作为一个著名的并行计算算法，它得以让数据库的查询建立在一个计算机集群上，任务可以分拆成小份，并跨越整个集群的节点。
HDFS是Hadoop 分布式文件系统的简称，这是Hadoop系统所使用的文件系统。被Hadoop所处理的数据必须先导入到HDFS中，并备份在运行了Hadoop的计算机网络中。它的数据极限大约在30PB。
Pig是针对Hadoop进行计算的一个高级编程语言（High-level programming language）。你可以将它视为Hadoop生态系统中各种操作的控制元件。它的性能是可扩展的。
Hive是一个数据仓库程序，是以“类-SQL”语言进行访问使用的，他是为横跨Hadoop集群的数据设计的。并且它的性能是可扩展的。
HBase、Sqoop以及Flume是Hadoop的数据库组件。HBase是一个可以运行在Hadoop环境上的列式数据库。它是基于Google的BigTable设计的，并且数据极限约为1PB。另外，它比直接在HDFS上访问数据要慢一些。这对于处理存在HBase里面的数据来说不是很好，对HBase对于归档和时间系列数据的计数很合适。Sqoop是一个将关系型数据库中的数据导入到HDFS中的程序。Flume与此类似，它关注于收集和导入各种数据源的日志和任务数据。
Mahout是一个机器学习和数据挖掘算法的函数库，用于对存储在HDFS的数据进行处理。
Zookeeper服务于Hadoop有一“群”各种各样功能的组件，所以调试管理以及协调程序是十分必要的。Zookeeper保证了整个套件的整合以及相对得简便操作。

how to be a data scientist 08

选择合适的工具

分解问题

解决问题