Skip to content
体验新版
项目
组织
正在加载...
登录
切换导航
打开侧边栏
OpenDocCN
succinctly-zh
提交
ad743ec3
S
succinctly-zh
项目概览
OpenDocCN
/
succinctly-zh
9 个月 前同步成功
通知
0
Star
1
Fork
0
代码
文件
提交
分支
Tags
贡献者
分支图
Diff
Issue
0
列表
看板
标记
里程碑
合并请求
0
DevOps
流水线
流水线任务
计划
Wiki
0
Wiki
分析
仓库
DevOps
项目成员
Pages
S
succinctly-zh
项目概览
项目概览
详情
发布
仓库
仓库
文件
提交
分支
标签
贡献者
分支图
比较
Issue
0
Issue
0
列表
看板
标记
里程碑
合并请求
0
合并请求
0
Pages
DevOps
DevOps
流水线
流水线任务
计划
分析
分析
仓库分析
DevOps
Wiki
0
Wiki
成员
成员
收起侧边栏
关闭侧边栏
动态
分支图
创建新Issue
流水线任务
提交
Issue看板
前往新版Gitcode,体验更适合开发者的 AI 搜索 >>
提交
ad743ec3
编写于
1月 08, 2022
作者:
W
wizardforcel
浏览文件
操作
浏览文件
下载
电子邮件补丁
差异文件
2022-01-08 19:10:32
上级
56ed8de2
变更
8
隐藏空白更改
内联
并排
Showing
8 changed file
with
16 addition
and
0 deletion
+16
-0
trans/hadoop/1.md
trans/hadoop/1.md
+2
-0
trans/hadoop/2.md
trans/hadoop/2.md
+2
-0
trans/hadoop/3.md
trans/hadoop/3.md
+2
-0
trans/hadoop/4.md
trans/hadoop/4.md
+2
-0
trans/hadoop/5.md
trans/hadoop/5.md
+2
-0
trans/hadoop/6.md
trans/hadoop/6.md
+2
-0
trans/hadoop/7.md
trans/hadoop/7.md
+2
-0
trans/hadoop/8.md
trans/hadoop/8.md
+2
-0
未找到文件。
trans/hadoop/1.md
浏览文件 @
ad743ec3
# 一、Hadoop 简介
Hadoop 是一个大数据平台,具有两个功能——将大量数据存储在安全、可靠的存储中,以及以高效的方式对这些数据运行复杂的查询。在 Hadoop 中,存储和计算都运行在同一组服务器上,并且两个功能都是容错的,这意味着您可以从商用硬件构建高性能集群。
Hadoop 的关键特性是它可以不断扩展。随着数据需求的增长,您可以通过添加更多服务器来扩展集群。相同的查询将在具有 1,000 个节点的集群上以与在具有 5 个节点的集群上完全相同的方式运行(只是速度快得多)。
...
...
trans/hadoop/2.md
浏览文件 @
ad743ec3
# 二、启动 Hadoop
Hadoop 是一个 Java 平台,这意味着在单个节点上安装它是一个简单的过程,包括设置先决条件、下载最新版本、解包以及运行启动服务器的命令。像 Hadoop 生态系统中的其他工具一样,它可以以三种模式运行:本地、伪分布式和分布式。
对于开发和探索来说,伪分布式选项是最好的——它在独立的 Java 进程中运行不同的 Hadoop 服务器,这意味着在单台机器上运行时,您可以获得与完整集群相同的运行时架构。
...
...
trans/hadoop/3.md
浏览文件 @
ad743ec3
# 三、HDFS——Hadoop 分布式文件系统
HDFS 是 Hadoop 平台的存储部分,通过 HDFS,您可以获得商用硬件的可靠性和可扩展性。
商品很重要,这意味着您的 Hadoop 集群中不需要专业硬件,节点也不需要具有相同甚至相似的规格。许多 Hadoop 安装都是从一个由乞讨或借用服务器构建的集群开始,并在项目启动时用自己的高规格机器进行扩展。您可以向正在运行的集群添加新节点,同时提高存储和计算能力,而不会出现任何停机。
...
...
trans/hadoop/4.md
浏览文件 @
ad743ec3
# 四、YARN——另一个资源协商器
到目前为止,我一直将 Hadoop 的计算部分称为作业调度器,但更准确地说,它应该被称为作业调度器、资源管理器和任务监视器的组合。
计算平台为 Hadoop 版本 2(2013 年发布)进行了重写,资源管理部分从 MapReduce 中抽象出来,这意味着 Hadoop 集群可以运行不同类型的作业,而不仅仅是 MapReduce 程序。新的资源管理器是纱,以 YAML(又一种标记语言)和雅司(又一种网络服务器)的风格命名。
...
...
trans/hadoop/5.md
浏览文件 @
ad743ec3
# 五、Hadoop 流式
虽然 MapReduce 和 Hadoop 本身都是本机 Java 平台,但也支持用其他语言构建 MapReduce 组件。这被称为 Hadoop Streaming,这是一种简单的方法,Hadoop 调用可执行文件作为任务的一部分,而不是在 JVM 中托管一个 JAR 文件。
Hadoop Streaming 使用标准的输入和输出流与执行进程进行通信,因此它适用于任何可以构建可执行二进制文件的平台,该文件从
**stdin**
读取并写入
**stdout**
。虽然简单,但 Hadoop Streaming 是一种强大的技术,它极大地扩展了 MapReduce 的范围和灵活性。
...
...
trans/hadoop/6.md
浏览文件 @
ad743ec3
# 六、集群内部
到目前为止,我们已经在高层次上检查了主节点和工作节点。现在,我们将更仔细地研究 Hadoop 集群,以便更好地了解如何设置机器,并了解它们如何协同工作。
Hadoop 集群是基础设施的动态部分。如果您有需要大数据解决方案的分析问题,您的数据收集将持续进行,并且您的群集需要定期增长,以满足不断增长的存储需求。此外,当丰富分析的好处开始实现时,许多公司会加快其大数据计划,将更多数据存储更长时间,并要求不同类型的分析。
...
...
trans/hadoop/7.md
浏览文件 @
ad743ec3
# 七、Hadoop 发行版
随着 Hadoop 在企业中变得越来越普遍,围绕 Hadoop 的商业生态系统也在持续增长。Hadoop 的商业发行版通常将核心平台与其他大数据技术捆绑在一起,旨在为整个数据分析环境提供一个单一、易于使用的平台。
商业上可获得的发行版分为两种选择——我们在内部部署并按支持订阅或产品成本付费的打包解决方案,以及在云中运行并按我们使用的集群和存储的每小时(或每分钟)计算成本付费的托管解决方案。
...
...
trans/hadoop/8.md
浏览文件 @
ad743ec3
# 八、Hadoop 生态系统
我们不能完全讨论 Hadoop 而不提到生态系统。因为 Hadoop 是一个开源平台,具有很大的潜力和相对较少的缺点,所以围绕它发展了一个庞大的社区,扩展了 Hadoop 的范围和功能。生态系统包含不同领域的各种技术,在本电子书的最后一章中,我们将了解一些主要的技术。
生态系统中的大多数技术都包含核心 Hadoop 平台,堵塞漏洞或提供替代工作方式,但其中少数技术使用 Hadoop 的核心功能来支持完全不同的方法。我们将看到的所有工具都是开源的,通常有大量的社区追随者,加上企业的大量投资。
...
...
编辑
预览
Markdown
is supported
0%
请重试
或
添加新附件
.
添加附件
取消
You are about to add
0
people
to the discussion. Proceed with caution.
先完成此消息的编辑!
取消
想要评论请
注册
或
登录