大数据

概要概述深入探索 MapReduce 过程 Hadoop 的分布式缓存 Hadoop 应用——推荐算法 HDFS HDFS 是 Hadoop 分布式文件系统的简称，由若干台计算机组成，用于存放 PB、TB 数量级以上的文件，每份文件可以有多个副本，所以 HDFS 是一个具有高冗余、高容错的文件系统。 Hadoop Hadoop 1.x Hadoop 2.x Hadoop 1.0 到 2.0 的变化：Hadoop 2.0 以后的版本移除了原有的 JobTracker 和 TaskTracker，改由 Yarn 平台的 ResourceManager 负责集群中所有资源的统一管理和分配，NodeManager 管理 Hadoop 集群中单个计算节点。 YARN 的设计减小了 JobTracker 的资源消耗，减少了 Hadoop 1.0 中发生单点故障的风险。我们还可以在 YARN 平台上运行 Spark 和 Storm 作业，充分利用资源。深入探索 MapReduce WordCount 实例回顾 MapReduce 作业是一种大规模数据集的并行计算的编程模型。我们可以将 HDFS 中存放的海量数据，通过 MapReduce 作业进行计算，得到目标数据。 ...

概要大数据技术的相关概念 Hadoop 的架构和运行机制实战：Hadoop 的安装和配置实战：Hadoop 的开发目标掌握大数据存储与处理技术的原理（理论知识）掌握 Hadoop 的使用和开发能力（实践能力）结合书本，如《Hadoop 权威指南》 Hadoop 的前世今生为了解决系统存在的瓶颈：存储容量、读写速率、计算效率… Google 提出了大数据技术：MapReduce、BigTable、GFS，这三样技术取得了革命性的变化：成本降低，能用 PC 机，就不用大型机和高端存储软件容错硬件故障视为常态，通过软件保证可靠性简化并行分布式计算，无须控制节点同步和数据交换但是，Google 只发表了相关的技术论文，没有开放源代码。于是，一个模仿 Google 大数据技术的开源实现出现了：Hadoop。 Hadoop 的功能和优势 Hadoop 是开源的分布式存储和分布式计算框架。 Hadoop 的组成包含两个核心组件： HDFS：分布式文件系统，存储海量的数据 MapReduce：并行处理框架，实现任务分解和调度 Hadoop 可以用来搭建大型数据仓库，PB 级数据的存储、处理、分析、统计等业务。如：搜索引擎、日志分析、商业智能、数据挖掘。 Hadoop 的优势高扩展低成本成熟的生态圈（Hive、HBase 等） Hadoop 生态系统及版本 Hadoop 生态系统 Hive：只需要编写 SQL 语句，Hive 就能够将其转化为一个 Hadoop 任务去执行，降低了使用 Hadoop 的门槛。 HBase：和传统的关系型数据库不同，HBase 放弃事务特性，追求更高的扩展；和 HDFS 不同，HBase 提供数据的随机读写和实时访问，实现对表数据的读写功能。 ZooKeeper：用于监控 Hadoop 集群的状态，管理一些配置，维护数据间节点的一致性等。 Hadoop 版本 ver1.x较为稳定且容易上手，本人将选择 ver1.x。 ...

Hadoop 进阶篇

Hadoop 基础篇