Skip to content
体验新版
项目
组织
正在加载...
登录
切换导航
打开侧边栏
Edaker
PaddleHub
提交
7146b59d
P
PaddleHub
项目概览
Edaker
/
PaddleHub
与 Fork 源项目一致
Fork自
PaddlePaddle / PaddleHub
通知
4
Star
0
Fork
0
代码
文件
提交
分支
Tags
贡献者
分支图
Diff
Issue
0
列表
看板
标记
里程碑
合并请求
0
Wiki
0
Wiki
分析
仓库
DevOps
项目成员
Pages
P
PaddleHub
项目概览
项目概览
详情
发布
仓库
仓库
文件
提交
分支
标签
贡献者
分支图
比较
Issue
0
Issue
0
列表
看板
标记
里程碑
合并请求
0
合并请求
0
Pages
分析
分析
仓库分析
DevOps
Wiki
0
Wiki
成员
成员
收起侧边栏
关闭侧边栏
动态
分支图
创建新Issue
提交
Issue看板
前往新版Gitcode,体验更适合开发者的 AI 搜索 >>
未验证
提交
7146b59d
编写于
9月 18, 2020
作者:
S
Steffy-zxf
提交者:
GitHub
9月 18, 2020
浏览文件
操作
浏览文件
下载
电子邮件补丁
差异文件
Update how_to_load_data.md
上级
7b62b3f6
变更
1
显示空白变更内容
内联
并排
Showing
1 changed file
with
0 addition
and
49 deletion
+0
-49
docs/tutorial/how_to_load_data.md
docs/tutorial/how_to_load_data.md
+0
-49
未找到文件。
docs/tutorial/how_to_load_data.md
浏览文件 @
7146b59d
...
...
@@ -30,39 +30,6 @@ text_a label
1.接电源没有几分钟,电源适配器热的不行. 2.摄像头用不起来. 3.机盖的钢琴漆,手不能摸,一摸一个印. 4.硬盘分区不好办. 0
```
### 自定义数据加载
加载文本类自定义数据集,用户仅需要继承基类BaseNLPDatast,修改数据集存放地址以及类别即可。具体使用如下:
**NOTE:**
*
数据集文件编码格式建议为utf8格式。
*
如果相应的数据集文件没有上述的列说明,如train.tsv文件没有第一行的
`text_a label`
,则train_file_with_header=False。
*
如果您还有预测数据(没有文本类别),可以将预测数据存放在predict.tsv文件,文件格式和train.tsv类似。去掉label一列即可。
*
分类任务中,数据集的label必须从0开始计数
```
python
from
paddlehub.dataset.base_nlp_dataset
import
BaseNLPDataset
class
DemoDataset
(
BaseNLPDataset
):
"""DemoDataset"""
def
__init__
(
self
):
# 数据集存放位置
self
.
dataset_dir
=
"path/to/dataset"
super
(
DemoDataset
,
self
).
__init__
(
base_path
=
self
.
dataset_dir
,
train_file
=
"train.tsv"
,
dev_file
=
"dev.tsv"
,
test_file
=
"test.tsv"
,
# 如果还有预测数据(不需要文本类别label),可以放在predict.tsv
predict_file
=
"predict.tsv"
,
train_file_with_header
=
True
,
dev_file_with_header
=
True
,
test_file_with_header
=
True
,
predict_file_with_header
=
True
,
# 数据集类别集合
label_list
=
[
"0"
,
"1"
])
dataset
=
DemoDataset
()
```
## 二、CV类任务如何自定义数据
利用PaddleHub迁移CV类任务使用自定义数据时,用户需要自己切分数据集,将数据集且分为训练集、验证集和测试集。
...
...
@@ -115,19 +82,3 @@ dog
*
如果您的数据集类别较少,可以不用定义label_list.txt,可以选择定义label_list=["数据集所有类别"]。
*
分类任务中,数据集的label必须从0开始计数
```
python
from
paddlehub.dataset.base_cv_dataset
import
BaseCVDataset
class
DemoDataset
(
BaseCVDataset
):
def
__init__
(
self
):
# 数据集存放位置
self
.
dataset_dir
=
"/test/data"
super
(
DemoDataset
,
self
).
__init__
(
base_path
=
self
.
dataset_dir
,
train_list_file
=
"train_list.txt"
,
validate_list_file
=
"validate_list.txt"
,
test_list_file
=
"test_list.txt"
,
predict_file
=
"predict_list.txt"
,
label_list_file
=
"label_list.txt"
,
# label_list=["数据集所有类别"])
dataset
=
DemoDataset
()
```
编辑
预览
Markdown
is supported
0%
请重试
或
添加新附件
.
添加附件
取消
You are about to add
0
people
to the discussion. Proceed with caution.
先完成此消息的编辑!
取消
想要评论请
注册
或
登录