diff --git a/doc/zh/english-vectors.md b/doc/zh/english-vectors.md index 45b080d124d6187da677d2b760033d12db10e8f8..3871050670f27cef9c59487c7268f1e96ba4d963 100644 --- a/doc/zh/english-vectors.md +++ b/doc/zh/english-vectors.md @@ -3,21 +3,21 @@ id: english-vectors title: English word vectors --- -这一篇整合了一些之前用fasttext训练的词向量。 +这一篇整合了一些之前用 fasttext 训练的词向量。 ### 下载经过训练的词向量 -可以在下面下载在不同来源学习过的预先训练过的单词向量: +你可以从下面下载单词向量,他们基于学习不同的数据来源,并且被预先训练过: -1. [wiki-news-300d-1M.vec.zip](https://s3-us-west-1.amazonaws.com/fasttext-vectors/wiki-news-300d-1M.vec.zip) :一百万的词向量,这些词向量是在2017维基百科,UMBC基于网络的语料库和statmt.org新闻数据集训练得到的(16B) -2. [wiki-news-300d-1M-subword.vec.zip](https://s3-us-west-1.amazonaws.com/fasttext-vectors/wiki-news-300d-1M-subword.vec.zip) : 一百万的带有子词信息的词向量,这些词向量是在2017维基百科,UMBC基于网络的语料库和 statmt.org 新闻数据集的训练得到的(16B) +1. [wiki-news-300d-1M.vec.zip](https://s3-us-west-1.amazonaws.com/fasttext-vectors/wiki-news-300d-1M.vec.zip) :一百万的词向量,这些词向量是在 2017 维基百科,UMBC 基于网络的语料库和 statmt.org 新闻数据集训练得到的(16B) +2. [wiki-news-300d-1M-subword.vec.zip](https://s3-us-west-1.amazonaws.com/fasttext-vectors/wiki-news-300d-1M-subword.vec.zip) : 一百万的带有子词信息的词向量,这些词向量是在 2017 维基百科,UMBC 基于网络的语料库和 statmt.org 新闻数据集的训练得到的(16B) 3. [crawl-300d-2M.vec.zip](https://s3-us-west-1.amazonaws.com/fasttext-vectors/crawl-300d-2M.vec.zip) : 两百万的词向量,这些词向量是在 Common Crawl 上训练得到的。(600B) ### 格式 文件的第一行包含了词汇表中单词的数量以及向量的大小。 -每一行包含了一个单词和它的向量,就像是fasttext文本格式默认的那种样子。 +每一行包含了一个单词和它的向量,就像是 fasttext 文本格式默认的那种样子。 每个值都是由空格隔开。 单词是按照频数降序排列的。