未验证 提交 9593c5f2 编写于 作者: Z ZSIRS 提交者: GitHub

Merge pull request #1 from apachecn/master

Lecture 5 +1327611048
......@@ -5,6 +5,7 @@
课程视频:
+ [斯坦福 CS224n 深度学习自然语言处理课程 2019](https://www.bilibili.com/video/av46216519)
+ [字幕(BCC 格式)](https://github.com/apachecn/stanford-cs224n-notes-zh/tree/master/bcc-en)
负责人:
......@@ -43,14 +44,14 @@
### 二、整理笔记
+ [下载英文字幕](https://www.bilibili.com/video/av46216519)
+ [下载英文字幕](https://github.com/apachecn/stanford-cs224n-notes-zh/tree/master/bcc-en)
+ 翻译(可以利用[谷歌翻译](https://translate.google.cn),但一定要把它变得可读)
+ 排版成段落,并添加视频截图
### 三、提交
+ `fork` Github 项目
+ 将文档放在`docs`中。
+ 将文档**Markdown 格式**放在`docs`中。
+ `push`
+ `pull request`
......
......@@ -6,9 +6,17 @@
>
> 欢迎任何人参与和完善:一个人可以走的很快,但是一群人却可以走的更远。
+ [斯坦福 CS229 机器学习中文笔记](http://ai-start.com/ml2014/)
+ [DeepLearning.ai 深度学习中文笔记](http://ai-start.com/dl2017/)
+ [斯坦福 CS234 强化学习中文讲义](https://github.com/apachecn/stanford-cs234-notes-zh)
+ [ApacheCN 机器学习交流群 629470233](http://shang.qq.com/wpa/qunwpa?idkey=30e5f1123a79867570f665aa3a483ca404b1c3f77737bc01ec520ed5f078ddef)
+ [ApacheCN 学习资源](http://www.apachecn.org/)
+ [贡献指南](CONTRIBUTING.md)
## 贡献指南
笔记整理活动正在进行,请查看[贡献指南](CONTRIBUTING.md),并在[整体进度](https://github.com/apachecn/stanford-cs224n-notes-zh/issues/1)中领取任务。
> 请您勇敢地去翻译和改进翻译。虽然我们追求卓越,但我们并不要求您做到十全十美,因此请不要担心因为翻译上犯错——在大部分情况下,我们的服务器已经记录所有的翻译,因此您不必担心会因为您的失误遭到无法挽回的破坏。(改编自维基百科)
## 联系方式
......
此差异已折叠。
此差异已折叠。
此差异已折叠。
{"font_size":0.4,"font_color":"#FFFFFF","background_alpha":0.5,"background_color":"#9C27B0","Stroke":"none","body":[]}
\ No newline at end of file
此差异已折叠。
此差异已折叠。
此差异已折叠。
此差异已折叠。
此差异已折叠。
此差异已折叠。
此差异已折叠。
此差异已折叠。
此差异已折叠。
此差异已折叠。
此差异已折叠。
此差异已折叠。
此差异已折叠。
此差异已折叠。
此差异已折叠。
此差异已折叠。
# 一 引言
![](media\1.png)
近几年在数据集,任务,模型,度量等方面上有很大提高。只要数据集够大,模型就可以达到局部最优,我们从单个模型中学习,模型通常由随机或部分预训练开始。一般如果你拥有的输出类数量的1,000倍,效果可能达到准确率高达80%到90%,如ImageNet中,有1000个不同的计算机视觉课程,
1,000个不同的类,每个类有1,000个图像。因此,如果有大约一百万张图像,那么效果显著。但在机器翻译中,理想情况下,有几十万字,每个单词的数百万个例子,却是不适用的。
单个nlp模型集中于单个模型的度量和任务完成,不能形成典范。为了统一的模型,我们引入了NLP通用模型自然语言十项全能(decaNLP)
# 二 自然语言通用模型decaNLP
###### 任务范围
![](media/5.png)
decaNLP有十个任务:问答、机器翻译、语义角色标注、关系抽取、摘要、任务驱动多轮对话、自然语言推理、情感分析、语义解析和代词消解。同时模型研究这种模型与那些为单一任务训练而准备的模型的不同。
###### 任务概述
![](media/4.png)**问答**
问答(QA)模型接收一个问题以及它所包含的必要的信息的上下文来输出理想的答案。数据集为斯坦福问答数据集的原始版本(SQuAD)。该上下文是从英文维基百科中摘取的段落,答案是从上下文中的一个短语。
**机器翻译**
机器翻译模型以源语言文本的形式为输入,输出为翻译好的目标语言。训练数据集为2016年为国际口语翻译研讨会(IWSLT)准备的英译德数据为,验证集和测试集为2013年和2014年的测试集作为。也可以使用额外的训练资源,比如机器翻译大赛(WMT)中的数据集。
**摘要**
摘要模型接收一个文档并输出该文档的摘要。摘要数据集为CNN/DailyMail (美国有线电视新闻网/每日邮报)语料库转换成的数据集。
**自然语言推理**
自然语言推理(NLI)模型接受两个输入句子:一个前提和一个假设。模型必须将前提和假设之间的推理关系归类为支持、中立或矛盾。我们使用的是多体裁自然语言推理语料库(MNLI),它提供来自多个领域的训练示例(转录语音、通俗小说、政府报告)和来自各个领域的测试对。
**情感分析**
情感分析模型被训练用来对输入文本表达的情感进行分类。斯坦福情感树库(SST)由一些带有相应的情绪(积极的,中立的,消极的)的影评所组成。我们使用未解析的二进制版本,以便明确对decaNLP模型的解析依赖。
**语义角色标注**
语义角色标注(SRL)模型给出一个句子和谓语(通常是一个动词),并且必须确定“谁对谁做了什么”、“什么时候”、“在哪里”。我们使用一个SRL数据集,该数据集将任务视为一种问答:QA-SRL。这个数据集涵盖了新闻和维基百科的领域,但是为了确保decaNLP的所有数据都可以自由下载,我们只使用了后者。
**关系抽取**
关系抽取系统包含文本文档和要从该文本中提取的关系类型。在这种情况下,模型需要先识别实体间的语义关系,再判断是不是属于目标种类。与SRL一样,我们使用一个数据集,该数据集将关系映射到一组问题,以便关系抽取可以被视为一种问答形式:QA-ZRE。对数据集的评估是为了在新的关系上测量零样本性能——数据集是分开的使得测试时看到的关系在训练时是无法看到的。这种零样本的关系抽取,以问答为框架,可以推广到新的关系之中。
**任务驱动多轮对话**
对话状态跟踪是任务驱动多轮对话系统的关键组成部分。根据用户的话语和系统动作,对话状态跟踪器会跟踪用户为对话系统设定了哪些事先设定目标,以及用户在系统和用户交互过程中发出了哪些请求。我们使用的是英文版的WOZ餐厅预订服务,它提供了事先设定的关于食物、日期、时间、地址和其他信息的本体,可以帮助代理商为客户进行预订。
**语义解析**
SQL查询生成与语义解析相关。基于WikiSQL数据集的模型将自然语言问题转换为结构化SQL查询,以便用户可以使用自然语言与数据库交互。
**代词消解**
我们的最后一个任务是基于要求代词解析的Winograd模式:“Joan一定要感谢Susan的帮助(给予/收到)。谁给予或者收到了帮助?Joan还是Susan?”。我们从Winograd模式挑战中的示例开始,并对它们进行了修改(导致了修订的Winograd模式挑战,即MWSC),以确保答案是上下文中的单个单词,并且分数不会因上下文、问题和答案之间的措辞或不一致而增加或者减少。
**十项全能得分(decaScore)**
在decaNLP上竞争的模型是被特定任务中度量标准的附加组合来评估的。所有的度量值都在0到100之间,因此十项全能得分在10个任务中的度量值在0到1000之间。使用附加组合可以避免我们在权衡不同指标时可能产生的随意性。所有指标都不区分大小写。我们将标准化的F1(nF1)用于问答、自然语言推理、情感分析、词性标注和MWSC;平均值ROUGE-1、ROUGE-2、ROUGE-L作为摘要的评分等级;语料BLEU水平得分用于对机器翻译进行评分;联合目标跟踪精确匹配分数和基于回合的请求精确匹配得分的平均值用于对目标导向进行评分;逻辑形式精确匹配得分用于WikiSQL上的语义解析;以及语料库级F1评分等级,用于QA-ZRE的关系提取。
###### 多任务问答网络(MQAN)
![](media/7.png)
为了有效地在所有decaNLP中进行多任务处理,我们引入了MQAN,一个多任务问题回答网络,它没有任何针对特定任务的参数和模块。
MQAN采用一个问题和一个上下文背景文档,用BiLSTM(双向LSTM)编码,使用额外的共同关注层对两个序列的条件进行表示,用另两个BiLSTM压缩所有这些信息,使其能够更高层进行计算,用自我关注的方式来收集这种长距离依赖关系,然后使用两个BiLSTM对问题和背景环境的进行最终的表示。多指针生成器解码器着重于问题、上下文以及先前输出象征来决定是否从问题中复制,还是从上下文复制,或者从有限的词汇表中生成。
###### 评分与分析
![](media/9.png)
比较这些实验的结果突出了在序列到序列和通用NLP问答方法之间的多任务和单任务之间的权衡关系。从S2S到+selfSAtt提供了一种模型,该模型在混合上下文和输入的系列问题中添加了附加关注层。这大大提高了 SQuAD和WiKISQL的性能,同时也提高了QA-SRL的性能。仅此一点就足以实现WiKISQL的最新技术性能。这也表明,如果不隐性地学习如何分离它们的表示方法,而显性地去分离上下文和问题会使模型建立更丰富的表示方法。
下一个基线使用上下文和问题作为单独的输入序列,相当于使用一个共同关注机制(+CAT)来增强S2S模型,该机制分别构建了两个序列表示。 使得每个SQuAD和QA-SRL的性能增加了 5 nF1。但遗憾的是,这种分离不能改善其他任务,并且极大地损害了MNLI和MWSC的性能。对于这两个任务,可以直接从问题中复制答案,而不是像大多数其他任务那样从上下文中复制答案。由于两个S2S基线都将问题连接到上下文,所以指针生成器机制能够直接从问题中复制。当上下文和问题被分成两个不同的输入时,模型就失去了这种能力。
为了补救这个问题,我们在前面的基线中添加了一个问题指针(+QPTR),一种在之前添加给MQAN的指针。这提高了MNLI和MWSC的性能,甚至能够比S2S基线达到更高的分数。它也改善了在SQuAD,IWSLT和 CNN/DM上的性能,该模型在WiKISQL上实现了最新的成果,是面向目标的对话数据集的第二高执行模型,并且是非显式地将问题建模为跨度提取的最高性能模型。因为当使用直接跨度监督时,我们会看到应用在通用问答中的一些局限性。
在多任务设置中,我们看到了类似的结果,但我们还注意到一些额外的显著特性。在QA-ZRE中,零样本关系提取,性能比最高的单任务模型提高11个点,这支持了多任务学习即使在零样本情况下也能得到更好的泛化的假设。在需要大量使用S2S基线的指针生成器解码器的生成器部分的任务上,性能下降了50%以上,直到问题指针再次添加到模型中。我们认为这在多任务设置中尤为重要。
原因有二:首先,问题指针除了在一个共同参与的上下文语境环境之外,还有一个共同参与的问题。这种分离允许有关问题的关键信息直接流入解码器,而不是通过共同参与的上下文。其次,通过更直接地访问这个问题,模型能够更有效地决定何时生成输出令牌比直接复制更合适。
使用这种反课程训练策略,最初只针对问答进行训练,在decaNLP上的性能也进一步有所提高。
###### 预训练MQAN优于随机初始化
![](media/10.png)
考虑到我们的模型是在丰富和多样的数据上进行训练的,它构建了强大的中间表示方法,从而实现了迁移学习。相对于一个随机初始化的模型,我们的模型在decaNLP上进行了预先训练,使得在几个新任务上更快的收敛并且也提高了分数。我们在上图中给出了两个这样的任务:命名实体识别和英文到捷克语的翻译。 我们的模型也具有领域适应的零样本能力。
我们的模型在decaNLP上接受过训练,在没有看过训练数据的情况下,我们将SNLI数据集调整到62%的精确匹配分数。因为decaNLP包含SST,它也可以在其他二进制情感分析任务中执行得很好。在亚马逊和Yelp的评论中,MQAN在decaNLP上进行了预先培训,分别获得了82.1%和80.8%的精确匹配分数。此外,用高兴/愤怒或支持/不支持来替换训练标签的符号来重新表示问题,只会导致性能的轻微下降,因为模型主要依赖于SST的问题指针。这表明,这些多任务模型对于问题和任务中的微小变化更加可靠,并且可以推广到新的和不可见的类。
\ No newline at end of file
一 NLP深度学习的过去
====================
![](media/cc8b2e483b89e4e7f585053d9ae16901.png)
很多被现在认为非常核心技术的想法在当时是不存在的,如Seq2Seq、注意力机制、大规模问答系统/阅读理解数据集,甚至是TonsorFlow或Pytorch等框架。
**Seq2Seq**
seq2seq 是一个Encoder–Decoder 结构的网络,它的输入是一个序列,输出也是一个序列,
Encoder 中将一个可变长度的信号序列变为固定长度的向量表达,Decoder
将这个固定长度的向量变成可变长度的目标的信号序列。
**Attention**
Attention函数的本质可以被描述为一个查询(query)到一系列(键key-值value)对的映射。
二 NLP深度学习的未来
====================
![](media/b28cc037a458e62e70e28df3da4db868.png)
1、本课程的关键思想:在训练NLP系统时利用未标记的例子。
2、扩大规模的深度学习模型OpenAl和GPT-2
3、NLP的社会影响
4、NLP在未来的研究领域发挥的重要作用
三 深度学习的发展
=================
![](media/5ccf67442a3c6f56f661544b9718d5be.png)
近年来,深度学习发展迅速关键在于其扩展能力的提高,增加模型的大小和相关数据集,其准确性得到极大的提升。在80年代和90年代,就有很多关于神经网络的研究。
![](media/5b6b327867947bbaacf320e8183363b8.png)
![](media/8b074b58ce68a16643e0e3ba231ced83.png)
深度学习在图像识别、机器翻译以及游戏。因此,对于ImageNet,对于图像识别,ImageNet数据集有1400万个图像,机器翻译数据集通常有数百万个例子。对于游戏,实际上可以生成尽可能多的训练数据,只需在游戏中一遍又一遍地运行代理即可。
四 NLP数据集
============
![](media/00594abd6ebca941e5e33b1d1ecf7242.png)
NLP数据存在的原因**只适用于英语**
绝大多数数据是英语,实际上不到世界人口的10%,说英语是他们的第一语言。因此,如果您查看存在的全部语言,那么小数据集的这些问题才会复杂化。
因此,当受到这些数据的限制时,希望利用深度学习规模并训练最大的模型。最近成功的**流行解决方案是使用未标记的数据**。因为与标记数据不同,语言非常容易获取。在某些情况下,甚至可以要求像语言学这样的专家来注释该数据。
五 使用未标记的数据进行翻译
===========================
应用利用未标记数据的想法,将NLP模型改进为机器翻译任务。
![](media/f8a9cc51dd30a1550b288b3304e510a4.png)
机器翻译确实需要相当大的数据集。而这些数据集是NLP研究人员为了训练其模型而注释了文本,训练模型受到标记数据的限制,但我们可以很容易找到未标记的数据,准确地查看一些文本并决定它所使用的语言并训练分类器来做到这一点。
![](media/a45da67f31b5f0894dd05ee257c7a457.png)
![](media/9a8bb5e3c768fa5db9036117cc7f75bb.png)
**预训练**
预训练——通过语言建模来预训练。
将从一种语言翻译为另一种语言,需要为这两种语言收集大型数据集,然后训练两种语言模型,每种语言模型一次,最后使用那些预先训练的语言模型作为机器翻译系统的初始化。
编码器对输入语言进行检测,同时对其语言模型的权重进行初始化,而解码器对目标语言模型的权重进行初始化,这将提高模型的性能。
![](media/70bd9c1c9f1b8aeb64495385072364cf.png)
![](media/0c13b354bd2f25497ff75e7433a8db0b.png)
预训练的问题——预训练中,两个独立的语言模型在未标记的语料库上运行时,两者之间从未真正进行任何交互。
**自我训练**
将原始的单语句和机器提供的翻译视为人为提供的翻译,并在此示例中正常训练机器学习模型。
**反向翻译**
![](media/49490589f03b3454efff6aceed677d59.png)
翻译系统从源语言到目标语言,还将训练从目标语言到源语言的模型。
![](media/a963ae4807b619f2b301b9566069f4bc.png)
这是来自Facebook的英语到德语的翻译,他们使用了500万个带标签的句子对,也使用了230个没有翻译的单语句子。你可以看到,与以前的技术水平相比,如果你将它与之前的研究和机器转机翻译进行比较,它们可以获得6个BLEU点改进。
一 双语数据
===========
![](media/d976819e250653f03cf7a4a9439cac96.png)
这里的目标是用一种语言给出一个单词,找到它的翻译,但不使用任何标记数据。
尝试解决此任务的方法称为**跨语言嵌入**
目标是学习两种语言中单词的单词向量,希望这些单词向量具有已经学过的有关单词向量的所有好的属性,同时也希望特定语言的单词向量能够接近到它的翻译的单词矢量。
![](media/bfa990c95fe70d27430257291a8e5793.png)
解决这个问题的关键方法:**word2vec**
**嵌入空间的结构具有很多规律性,利用这种规律性来帮助找到那些嵌入空间之间的对齐**
![](media/5e21808db8af3416351121f745477256.png)
![](media/7d41ff65016bd11b9fbeb32918f13b0b.png)
这是两组字嵌入的图片,红色有英文单词,蓝色有意大利语单词。虽然现在的矢量空间看起来彼此非常不同,但是看到它们有一个非常相似的结构。尝试将转换的英语嵌入集旋转,以便它们与意大利嵌入相匹配。
从数学上来说,这意味着需要一个学习矩阵W,用英语中的cat表示矢量,我们将它乘以W,最终得到西班牙语或意大利语的gatto矢量。将W约束为正交,这意味着几何上W只会对X中的向量进行旋转。
二 如何学习W
============
![](media/22fd011d4ca155b84b651df09e7aa675.png)
实际上有很多技术可以用来学习这个W矩阵,其中一个就是称为**对抗训练**
它的工作方式如下:
除了试图学习W矩阵之外,还将尝试学习一个被称为鉴别器的模型。采用一个向量,预测该向量最初是英文单词嵌入还是原来是意大利语嵌入。
如果没有W矩阵,这对于鉴别器来说是一个非常简单的任务,清楚地分开英语和意大利语的嵌入字。如果学习W矩阵成功地将所有这些嵌入对齐,那么鉴别器将永远不会做得很好。
在训练期间,首先要稍微训练一下鉴别器,这意味着确保它在区分英语和意大利语单词时尽可能好,然后训练W,而训练W的目标是将鉴别器混淆为尽可能多。
![](media/d8b5c15ef6c09b4e5e6221c08a77a117.png)
**seq2seq模型**
对标准的seq2srq模型进行了一处更改,即我们将使用相同的编码器和编码器,无论输入和输出语言如何。它将具有英语单词和法语单词的向量表示。
对于解码器,我们需要给它一些关于它应该生成什么语言的信息。这样做的方法是输入一个特殊的标记,这个标记在括号中表示告诉模型的语法。在底部,它输入法语句子作为输入,它只是生成法语作为输出,这意味着只是再现原始输入序列。
![](media/29d3c9fa71562a0d68ed4568cfa3b8fc.png)
三 如何训练seq2seq模型
======================
去噪自动编码器
它被扰乱之前重新生成句子实际上是什么。也许有一个想法为什么这将是一个有用的训练目标,是因为有一个没有注意的编码器-解码器。编码器正在将整个源句子转换成单个向量,自动编码器做的是确保向量包含有关句子的所有信息,以便能够从编码器产生的向量中恢复原始句子的内容。
![](media/36429d6dd9868d07d9d92cc712d26690.png)
用没有标签的句子,不提供任何人工翻译,假设一个英语句子或者说一个法语句子,给出一个法语句子,可以将它翻译成英语,使用模型的当前状态,然后要求该模型从英语翻译或将该英语翻译回法语。
![](media/16d1c888725fe434f06485e4b8a0a47e.png)
使用这些跨语言嵌入来初始化机器翻译模型使用共享编码器。在顶部,只有一个自动编码目标,由于嵌入看起来非常相似,并且因为编码器是相同的,所以模型对这个法语句子的表示实际上应该与英语句子的表示非常相似。因此,当这种表示传递到解码器时,我们希望获得与以前相同的输出。
![](media/ed979ece44c470f0e90d399c89168997.png)
另一种思考方式是希望我们的模型能够对句子进行编码,这样表达式就像是一种通用的国际语言。我们的自动编码器和我们的反向翻译示例中,这里的目标序列是相同的。
![](media/87ba75b9ceeb74f88f5d92abbec5c1fb.png)
毫无疑问,在给定大量监督数据的情况下,受监督的机器翻译模型比无监督的机器翻译模型工作得更好。但是无监督的机器翻译模型实际上仍然做得很好。
![](media/aa7868f8bd9dd5d3f8ebdd08e413d78c.png)
使用无监督机器翻译模型可以做的另一件好事是**属性转移**
![](media/94d73800652ad75fbe429812a903ebab.png)
因此,如果你看一个不同的语言对,让我们说英语到土耳其语,这两种语言的语言学是完全不同的,这些方法在某种程度上仍然有效,所以他们可以说五个BLEU点,但他们不会几乎和其他设置一样工作。
纯粹的监督学习仍然存在巨大差距。
一 BERT
=======
![](media/1fc8b424ade235725a60af4f056558b7.png)
这是常规BERT,使用英语一些句子(其中某些单词被删除),要求使用BERT模型来填补空白并预测这些单词。
谷歌实际上已经完成了多语言BERT训练。采用的是连接一大堆不同语言的语料库,然后训练一个模型在所有语言上使用模型。最近,由Facebook提出的这种新的扩展,实际上是将LM培训目标与翻译相结合。
在这种情况下,给这个模型一个英文序列和一个法语序列,删除一些单词,要求模型填写它,更好地使模型理解两种语言之间的关系。
![](media/863d03b91f0a5659e4f8e2a054936e45.png)
因此像BERT用于NLP中的其他任务一样,基本上都采用这种跨语言BERT,将其用作无监督机器翻译系统的初始化,并获得了大约10个BLEU点的增益,这样就可以实现无人监督的机器翻译。
二 Huge Models and GPT-2
========================
![](media/707177c98672fbd53c9be53ac13cd78c.png)
首先,这是一些不同大小的NLP模型,也许几年前标准的LSTM中型模型大约有1000万个参数。在OpenAl论文之前,这个GPT-2大约是它的10倍,大约相当于另一个数量级。当然,、神经网络中的突触和权重是完全不同的。
![](media/7429800d68f22424891570eaecd970b3.png)
该图显示了x轴是时间,y轴是用日志来衡量用于训练该模型的petaFLOPS的数量。这意味着至少目前的趋势是机器学习模型的计算能力呈现出指数增长。
![](media/3017ff5e27e32edc63d73a563f988a25.png)
这结果来自一个视觉的生成性对抗网络,它已经在很多数据上进行了训练,并且已经在大规模上进行了训练,这是ELMo和BERT之间的大型模型。如果你感兴趣的是https://thispersondoesnotexist.com/。
![](media/883a1f598728ca6deb4101b097107b21.png)
这是谷歌最近的工作,他们训练了一个有5亿个参数的图像网络模型。这里的图表显示x轴上的日志缩放参数数量,然后ImageNet在y轴上的准确性,这种大型模型表现得更好。并且似乎成为一种趋势,其精度随着模型尺寸的对数而增加。
![](media/49a12531f44200f697663ba7da938af0.png)
硬件在很大程度上扩展模型和训练模型。特别是,越来越多的公司正在开发深度学习的硬件。实际上另一种扩展模型的方法是利用并行性。
一种是数据并行性。在这种情况下,GPU将拥有该模型的数据副本,将正在训练的数据分成小批量到这些模型中,这样就可以更快地训练模型。
另一种并行性是模型并行性。在这种情况下,您实际上需要将模型拆分为多个计算单元。
![](media/1e5d555592b54279f9571143f2a1bc1a.png)
![](media/4698fa83c1a4f0c5fdde96eccea1648b.png)
拥有像GPT-2这样超级庞大的语言模型,可以用它进行语言建模。并在基准测试上运行这种语言模型。如果想评估语言模型,首先在Penn
Treebank上训练,然后评估这个组合。在这种情况下,GPT-2只是因为看过这么多的文字并且是如此大的模型,优于其他的先前,即使它没有那些数据也能在不同的语言基准中测试。
![](media/52313442e024b1d78d8f7fe85bb1c83c.png)
零射击学习只是尝试完成一项任务,而不需要对它进行训练。通过设计一个提示需要输入的语言模型,然后让它从那里生成,希望它生成与你想要解决的任务相关的语言。
![](media/24daaa12a59b6f4adf3446cc556c055c.png)
x轴是对数缩放的模型大小,y轴是精确度,虚线基本上对应于这些任务的现有工作。
![](media/b3d54f5f91d45e47215ce3a4a8219dbd.png)
通常在NLP的历史中,如果想将一种世界知识带入一个NLP系统,你需要一个类似于事实的大数据库,它仍然可以通过阅读大量文本而无需明确地获取一些世界知识将这些知识付诸于模型。
Markdown is supported
0% .
You are about to add 0 people to the discussion. Proceed with caution.
先完成此消息的编辑!
想要评论请 注册