Skip to content
体验新版
项目
组织
正在加载...
登录
切换导航
打开侧边栏
OpenDocCN
fasttext-doc-zh
提交
1066e5c3
F
fasttext-doc-zh
项目概览
OpenDocCN
/
fasttext-doc-zh
通知
1
Star
0
Fork
0
代码
文件
提交
分支
Tags
贡献者
分支图
Diff
Issue
0
列表
看板
标记
里程碑
合并请求
0
Wiki
0
Wiki
分析
仓库
DevOps
项目成员
Pages
F
fasttext-doc-zh
项目概览
项目概览
详情
发布
仓库
仓库
文件
提交
分支
标签
贡献者
分支图
比较
Issue
0
Issue
0
列表
看板
标记
里程碑
合并请求
0
合并请求
0
Pages
分析
分析
仓库分析
DevOps
Wiki
0
Wiki
成员
成员
收起侧边栏
关闭侧边栏
动态
分支图
创建新Issue
提交
Issue看板
前往新版Gitcode,体验更适合开发者的 AI 搜索 >>
未验证
提交
1066e5c3
编写于
4月 25, 2018
作者:
K
Keqi Huang
提交者:
GitHub
4月 25, 2018
浏览文件
操作
浏览文件
下载
电子邮件补丁
差异文件
Update english-vectors.md
上级
e9b6c47b
变更
1
隐藏空白更改
内联
并排
Showing
1 changed file
with
5 addition
and
5 deletion
+5
-5
doc/zh/english-vectors.md
doc/zh/english-vectors.md
+5
-5
未找到文件。
doc/zh/english-vectors.md
浏览文件 @
1066e5c3
...
...
@@ -3,21 +3,21 @@ id: english-vectors
title
:
English word vectors
---
这一篇整合了一些之前用
fasttext
训练的词向量。
这一篇整合了一些之前用
fasttext
训练的词向量。
### 下载经过训练的词向量
可以在下面下载在不同来源学习过的预先训练过的单词向量
:
你可以从下面下载单词向量,他们基于学习不同的数据来源,并且被预先训练过
:
1.
[
wiki-news-300d-1M.vec.zip
](
https://s3-us-west-1.amazonaws.com/fasttext-vectors/wiki-news-300d-1M.vec.zip
)
:一百万的词向量,这些词向量是在
2017维基百科,UMBC基于网络的语料库和statmt.org
新闻数据集训练得到的(16B)
2.
[
wiki-news-300d-1M-subword.vec.zip
](
https://s3-us-west-1.amazonaws.com/fasttext-vectors/wiki-news-300d-1M-subword.vec.zip
)
: 一百万的带有子词信息的词向量,这些词向量是在
2017维基百科,UMBC
基于网络的语料库和 statmt.org 新闻数据集的训练得到的(16B)
1.
[
wiki-news-300d-1M.vec.zip
](
https://s3-us-west-1.amazonaws.com/fasttext-vectors/wiki-news-300d-1M.vec.zip
)
:一百万的词向量,这些词向量是在
2017 维基百科,UMBC 基于网络的语料库和 statmt.org
新闻数据集训练得到的(16B)
2.
[
wiki-news-300d-1M-subword.vec.zip
](
https://s3-us-west-1.amazonaws.com/fasttext-vectors/wiki-news-300d-1M-subword.vec.zip
)
: 一百万的带有子词信息的词向量,这些词向量是在
2017 维基百科,UMBC
基于网络的语料库和 statmt.org 新闻数据集的训练得到的(16B)
3.
[
crawl-300d-2M.vec.zip
](
https://s3-us-west-1.amazonaws.com/fasttext-vectors/crawl-300d-2M.vec.zip
)
: 两百万的词向量,这些词向量是在 Common Crawl 上训练得到的。(600B)
### 格式
文件的第一行包含了词汇表中单词的数量以及向量的大小。
每一行包含了一个单词和它的向量,就像是
fasttext
文本格式默认的那种样子。
每一行包含了一个单词和它的向量,就像是
fasttext
文本格式默认的那种样子。
每个值都是由空格隔开。
单词是按照频数降序排列的。
...
...
编辑
预览
Markdown
is supported
0%
请重试
或
添加新附件
.
添加附件
取消
You are about to add
0
people
to the discussion. Proceed with caution.
先完成此消息的编辑!
取消
想要评论请
注册
或
登录