提交 ad743ec3 编写于 作者: W wizardforcel

2022-01-08 19:10:32

上级 56ed8de2
# 一、Hadoop 简介
Hadoop 是一个大数据平台,具有两个功能——将大量数据存储在安全、可靠的存储中,以及以高效的方式对这些数据运行复杂的查询。在 Hadoop 中,存储和计算都运行在同一组服务器上,并且两个功能都是容错的,这意味着您可以从商用硬件构建高性能集群。
Hadoop 的关键特性是它可以不断扩展。随着数据需求的增长,您可以通过添加更多服务器来扩展集群。相同的查询将在具有 1,000 个节点的集群上以与在具有 5 个节点的集群上完全相同的方式运行(只是速度快得多)。
......
# 二、启动 Hadoop
Hadoop 是一个 Java 平台,这意味着在单个节点上安装它是一个简单的过程,包括设置先决条件、下载最新版本、解包以及运行启动服务器的命令。像 Hadoop 生态系统中的其他工具一样,它可以以三种模式运行:本地、伪分布式和分布式。
对于开发和探索来说,伪分布式选项是最好的——它在独立的 Java 进程中运行不同的 Hadoop 服务器,这意味着在单台机器上运行时,您可以获得与完整集群相同的运行时架构。
......
# 三、HDFS——Hadoop 分布式文件系统
HDFS 是 Hadoop 平台的存储部分,通过 HDFS,您可以获得商用硬件的可靠性和可扩展性。
商品很重要,这意味着您的 Hadoop 集群中不需要专业硬件,节点也不需要具有相同甚至相似的规格。许多 Hadoop 安装都是从一个由乞讨或借用服务器构建的集群开始,并在项目启动时用自己的高规格机器进行扩展。您可以向正在运行的集群添加新节点,同时提高存储和计算能力,而不会出现任何停机。
......
# 四、YARN——另一个资源协商器
到目前为止,我一直将 Hadoop 的计算部分称为作业调度器,但更准确地说,它应该被称为作业调度器、资源管理器和任务监视器的组合。
计算平台为 Hadoop 版本 2(2013 年发布)进行了重写,资源管理部分从 MapReduce 中抽象出来,这意味着 Hadoop 集群可以运行不同类型的作业,而不仅仅是 MapReduce 程序。新的资源管理器是纱,以 YAML(又一种标记语言)和雅司(又一种网络服务器)的风格命名。
......
# 五、Hadoop 流式
虽然 MapReduce 和 Hadoop 本身都是本机 Java 平台,但也支持用其他语言构建 MapReduce 组件。这被称为 Hadoop Streaming,这是一种简单的方法,Hadoop 调用可执行文件作为任务的一部分,而不是在 JVM 中托管一个 JAR 文件。
Hadoop Streaming 使用标准的输入和输出流与执行进程进行通信,因此它适用于任何可以构建可执行二进制文件的平台,该文件从 **stdin** 读取并写入 **stdout** 。虽然简单,但 Hadoop Streaming 是一种强大的技术,它极大地扩展了 MapReduce 的范围和灵活性。
......
# 六、集群内部
到目前为止,我们已经在高层次上检查了主节点和工作节点。现在,我们将更仔细地研究 Hadoop 集群,以便更好地了解如何设置机器,并了解它们如何协同工作。
Hadoop 集群是基础设施的动态部分。如果您有需要大数据解决方案的分析问题,您的数据收集将持续进行,并且您的群集需要定期增长,以满足不断增长的存储需求。此外,当丰富分析的好处开始实现时,许多公司会加快其大数据计划,将更多数据存储更长时间,并要求不同类型的分析。
......
# 七、Hadoop 发行版
随着 Hadoop 在企业中变得越来越普遍,围绕 Hadoop 的商业生态系统也在持续增长。Hadoop 的商业发行版通常将核心平台与其他大数据技术捆绑在一起,旨在为整个数据分析环境提供一个单一、易于使用的平台。
商业上可获得的发行版分为两种选择——我们在内部部署并按支持订阅或产品成本付费的打包解决方案,以及在云中运行并按我们使用的集群和存储的每小时(或每分钟)计算成本付费的托管解决方案。
......
# 八、Hadoop 生态系统
我们不能完全讨论 Hadoop 而不提到生态系统。因为 Hadoop 是一个开源平台,具有很大的潜力和相对较少的缺点,所以围绕它发展了一个庞大的社区,扩展了 Hadoop 的范围和功能。生态系统包含不同领域的各种技术,在本电子书的最后一章中,我们将了解一些主要的技术。
生态系统中的大多数技术都包含核心 Hadoop 平台,堵塞漏洞或提供替代工作方式,但其中少数技术使用 Hadoop 的核心功能来支持完全不同的方法。我们将看到的所有工具都是开源的,通常有大量的社区追随者,加上企业的大量投资。
......
Markdown is supported
0% .
You are about to add 0 people to the discussion. Proceed with caution.
先完成此消息的编辑!
想要评论请 注册