Hadoop 进阶篇

概要 概述 深入探索 MapReduce 过程 Hadoop 的分布式缓存 Hadoop 应用——推荐算法 HDFS HDFS 是 Hadoop 分布式文件系统的简称,由若干台计算机组成,用于存放 PB、TB 数量级以上的文件,每份文件可以有多个副本,所以 HDFS 是一个具有高冗余、高容错的文件系统。 Hadoop Hadoop 1.x Hadoop 2.x Hadoop 1.0 到 2.0 的变化:Hadoop 2.0 以后的版本移除了原有的 JobTracker 和 TaskTracker,改由 Yarn 平台的 ResourceManager 负责集群中所有资源的统一管理和分配,NodeManager 管理 Hadoop 集群中单个计算节点。 YARN 的设计减小了 JobTracker 的资源消耗,减少了 Hadoop 1.0 中发生单点故障的风险。我们还可以在 YARN 平台上运行 Spark 和 Storm 作业,充分利用资源。 深入探索 MapReduce WordCount 实例回顾 MapReduce 作业是一种大规模数据集的并行计算的编程模型。我们可以将 HDFS 中存放的海量数据,通过 MapReduce 作业进行计算,得到目标数据。 ...

May 8, 2020 · 1 min

Hadoop 基础篇

概要 大数据技术的相关概念 Hadoop 的架构和运行机制 实战:Hadoop 的安装和配置 实战:Hadoop 的开发 目标 掌握大数据存储与处理技术的原理(理论知识) 掌握 Hadoop 的使用和开发能力(实践能力) 结合书本,如《Hadoop 权威指南》 Hadoop 的前世今生 为了解决系统存在的瓶颈:存储容量、读写速率、计算效率… Google 提出了大数据技术:MapReduce、BigTable、GFS,这三样技术取得了革命性的变化: 成本降低,能用 PC 机,就不用大型机和高端存储 软件容错硬件故障视为常态,通过软件保证可靠性 简化并行分布式计算,无须控制节点同步和数据交换 但是,Google 只发表了相关的技术论文,没有开放源代码。于是,一个模仿 Google 大数据技术的开源实现出现了:Hadoop。 Hadoop 的功能和优势 Hadoop 是开源的分布式存储和分布式计算框架。 Hadoop 的组成 包含两个核心组件: HDFS:分布式文件系统,存储海量的数据 MapReduce:并行处理框架,实现任务分解和调度 Hadoop 可以用来搭建大型数据仓库,PB 级数据的存储、处理、分析、统计等业务。如:搜索引擎、日志分析、商业智能、数据挖掘。 Hadoop 的优势 高扩展 低成本 成熟的生态圈(Hive、HBase 等) Hadoop 生态系统及版本 Hadoop 生态系统 Hive:只需要编写 SQL 语句,Hive 就能够将其转化为一个 Hadoop 任务去执行,降低了使用 Hadoop 的门槛。 HBase:和传统的关系型数据库不同,HBase 放弃事务特性,追求更高的扩展;和 HDFS 不同,HBase 提供数据的随机读写和实时访问,实现对表数据的读写功能。 ZooKeeper:用于监控 Hadoop 集群的状态,管理一些配置,维护数据间节点的一致性等。 Hadoop 版本 ver1.x较为稳定且容易上手,本人将选择 ver1.x。 ...

May 6, 2020 · 9 min