Skip to content
体验新版
项目
组织
正在加载...
登录
切换导航
打开侧边栏
PaddlePaddle
ElasticCTR
提交
f3cf00e8
E
ElasticCTR
项目概览
PaddlePaddle
/
ElasticCTR
通知
8
Star
2
Fork
0
代码
文件
提交
分支
Tags
贡献者
分支图
Diff
Issue
1
列表
看板
标记
里程碑
合并请求
0
Wiki
0
Wiki
分析
仓库
DevOps
项目成员
Pages
E
ElasticCTR
项目概览
项目概览
详情
发布
仓库
仓库
文件
提交
分支
标签
贡献者
分支图
比较
Issue
1
Issue
1
列表
看板
标记
里程碑
合并请求
0
合并请求
0
Pages
分析
分析
仓库分析
DevOps
Wiki
0
Wiki
成员
成员
收起侧边栏
关闭侧边栏
动态
分支图
创建新Issue
提交
Issue看板
前往新版Gitcode,体验更适合开发者的 AI 搜索 >>
未验证
提交
f3cf00e8
编写于
4月 07, 2020
作者:
J
Jiawei Wang
提交者:
GitHub
4月 07, 2020
浏览文件
操作
浏览文件
下载
电子邮件补丁
差异文件
Create HDFS_TUTORIAL.md
上级
19539910
变更
1
隐藏空白更改
内联
并排
Showing
1 changed file
with
61 addition
and
0 deletion
+61
-0
HDFS_TUTORIAL.md
HDFS_TUTORIAL.md
+61
-0
未找到文件。
HDFS_TUTORIAL.md
0 → 100644
浏览文件 @
f3cf00e8
# 如何搭建HDFS集群
## 综述
本篇文章只是用于demo的HDFS集群搭建教程,用于跑通ElasticCTR的各个流程。本文将会带着大家在百度云的节点上搭建一个HDFS,并将Criteo数据集按照ElasticCTR的数据集格式要求,存放在HDFS上。
## 购买BCC
搭建 HDFS 集群的过程较为复杂,首先需要购买一个 BCC 实例
<p
align=
"center"
>
<br>
<img
src=
'./doc/buy_bcc.png'
>
<br>
<p>
在 BCC 实例当中购买较大的 CDS 云磁盘。
## 安装并启动Hadoop
在进入 BCC 之后首先需要用 fdisk 工具确认分区是否已经安装。
选择 hadoop-2.8.5.tar.gz。下载后解压把 hadoop-2.8.5 目录 move 到/usr/local 目录下。 在/usr/local/hadoop-2.8.5/etc/hadoop/下,编辑 core-site.xml文件,修改为
```
<configuration>
<property>
<name>fs.defaultFS</name>
<value>hdfs://${LOCAL_IP}:9000</value>
</property>
<property>
<name>hadoop.tmp.dir</name>
<value>/data/hadoop</value>
</property>
</configuration>
```
Microsoft Word - ElasticCTR提测报告-0.docx
此处 LOCAL_IP 推荐用内网的 IP,也就是在 ifconfig 下为 192.168 开头的 IP,在 K8S 当中也可以被访问 到。
在 slave 文件下输入 root@127.0.0.1
接下来配置无密码访问,首先要 ssh-keygen,各种回车之后,用 ssh-copy-id 命令把无密码访问配置到 127.0.0.1 localhost 0.0.0.0 几个 IP 地址。
把/usr/local/hadoop-2.8.5/etc/hadoop 设置为 HADOOP_HOME
再把$HADOOP_HOME/bin 放在 PATH 下。如果输入 hadoop 命令可以被执行,就执行 hadoop namenode format。
最后在/usr/local/hadoop-2.8.5/sbin 目录下运行 ,start-all.sh。
以上操作之后,HDFS 服务就启动完毕,接下来就创建流式训练的文件夹 /train_data/,使用命令 hdfs dfs -mkdir hdfs://$IP:9000/train_data/
## 复制Criteo数据集到HDFS
接下来从
`https://paddle-elasticctr.bj.bcebos.com/criteo_dataset/criteo_demo.tar.gz`
下载数据集,解压之后在criteo_demo下
执行
`hdfs dfs -put * hdfs://$IP:9000/train_data/20200401`
`$IP`
就是先前到HDFS地址。
这样,就在train_data下目录到20200401目录下存放了5个小时的训练集。
20200401可以改动成任意一个日期。
编辑
预览
Markdown
is supported
0%
请重试
或
添加新附件
.
添加附件
取消
You are about to add
0
people
to the discussion. Proceed with caution.
先完成此消息的编辑!
取消
想要评论请
注册
或
登录