斯坦福最新问答数据集CoQA

原标题:能源 | 让AI学会刨根问底和假释自小编,印度孟买理工科最新问答数据集CoQA

Recent Trends in Deep Learning Based Natural Language Processing

正文是一篇 deep learning in NLP 的总结,详细地介绍了 DL 在 NLP
中的模型以及接纳,还对几大经典和热门职分做了摘要,推荐给大家。

小说来源

二零一七年7月发在ArXiv上的一篇综合。对各种深度学习模型和方针在NLP各样职责上的选择和形成实行了介绍。链接:https://arxiv.org/abs/1708.02709

摘要

纵深学习方法应用多个处理层来读书数据的道岔表示,并在许多天地中发出了开端进的结果。
目前,在自然语言处理(NLP)的背景下,各样模型设计和方法已经升高。
在本文中,大家回想了大气的中肯学习相关的模型和章程,这么些模型和措施已经被用来许多NLP职责,并提供了他们形成的步态。
大家还对各样格局展开了总计,比较和对待,并对NLP中的长远学习的病逝,以往和以后进展了详尽的问询。

诗歌章摘要要

选自arXiv

1. 介绍

自然语言处理(NLP)是用于机动分析和象征人类语言的辩护思想的计量技术。
NLP探讨从打卡(the era of punch cards
)和批量拍卖的近年来衍变而来,那时一句话的剖析大概须要8分钟,到谷歌等一代,数百万的网页可以在秒一下的时日处理完成(Cambria
and 惠特e,二〇一四)。
NLP使总括机能够在全部级别实施广泛的自然语言相关义务,从分析和部分(POS)标记到机械翻译和对话系统。NLP使计算机能够在富有级别实施广泛的自然语言相关职责,从词语解析和词性标注(POS)到机械翻译和对话系统。

纵深学习架构和算法已经在比如总括机视觉和格局识别等世界获得了显着进步。遵照那种势头,近来的NLP讨论正在更多地关注使用新的吃水学习格局(见图1)。几十年来,针对NLP难题的机器学习格局基于在大尺寸和疏散特征上磨练的浅模型(例如,SVM和逻辑回归)。在过去几年中,基于密集向量表示的神经互连网已经在各类NLP职务上发出了卓越的结果。那种势头是词嵌入成功-Word
Embedding(Mikolov et
al。,二〇一〇,二零一三a)和深度学习方法(Socher等,二零一二)引发的。深度学习能够落实多重自动特征表征学习。但是,古板的依照机器学习的NLP系统大气与手工提取特征联系。手工业提取特征是耗时且不时不完全的。

(Collobert等,2013)注明,简单的深远学习框架在大概NLP任务中胜过超过半数起初进的主意,如命名实体识别(NE奥迪Q5),语义剧中人物标注(S揽胜极光L),和词性标注。从那时起,已经提出了过多错综复杂的依据深度学习的算法来消除困难的NLP职务。我们回看了应用于自旋语言任务的要害深度学习相关模型和艺术,如卷积神经互联网(CNN),循环神经网络(福特ExplorerNN)和递归神经网络。大家还讨论了增添回忆的国策,attention机制,以及如何在言语相关职分中选用无监察和控制模型,强化学习方法和近来的深层次的变通模型。

据大家所知,本篇诗歌是明天在NLP商讨中圆满覆盖大多数纵深学习格局的首次提出。
(戈尔德berg,二零一六年)近年来的行事以教学格局介绍了NLP的无时或忘学习情势,主固然分布式语义技术概述,即word2vec和CNN。在她的劳作中,戈德Berg没有座谈各类深层次的学习框架结构。那篇随想将给读者一个更健全的摸底那个圈子当前的做法。

本文的协会如下:第2有个别介绍了分布式表示的定义,是扑朔迷离深度学习模型的根基;
接下来,第一节,第三节和第肆节商讨了卷积,循环和递归神经互连网等风靡模型,以及它们在各个NLP职分中的使用;
以下,第6节列出了NLP中加深学习的风靡应用和未受监察和控制的语句表示学习的新升高;
之后,第⑧片段出示了近日与内部存储器模块耦合的深度学习形式的势头;
最终,第7有个别总计了有关心尊敬大NLP核心的正儿八经数据集的一名目繁多少深度度学习方式的显示。

图片 1

图1:ACL,EMNLP,EACL,NAACL在过去6年的深浅学习杂文的百分比(长篇故事集)。

舆论指标

This paper proposes dynamic chunk reader (DCR), an end-to-end neural
reading comprehension (RC) model that is able to extract and rank a set
of answer candidates from a given document to answer questions.
那篇小说建议了一种端对端的神经互连网阅读精晓模型–动态块阅读器,能够从文书档案中提取候选答案并对答案进行排序。

作者:**Siva Reddy、Danqi Chen、Christopher D. Manning
**

2. 分布式的向量化表示

计算NLP已改成复杂自然语言职责建模的第2选用。
但是,一早先,由于语言模型中词汇数量过大,它易在念书语言模型的一块儿概率函数时受到维度劫难。
由此须求将词汇编码到更低维度的向量空间中。Word Embedding、Character
Embedding等不等层次的因素分布式表示是累累NLP任务以来效果不断提高的底蕴。

模型概述

dataset: Stanford Question Answering Dataset (SQuAD) which contains a
variety of human-generated factoid and non-factoid questions, have shown
the effectiveness of above three contributions.
DCR encodes a document and an input question with recurrent neural
networks, and then applies a word-by-word attention mechanism to
acquire question-aware representations for the document, followed by the
generation of chunk representations and a ranking module to propose the
top-ranked chunk as the answer.
DCRAV4用大切诺基NN对小说和题材举办编码,然后利用word-by-word的注意力机制来取得难点敏感的文书档案表明,接下用转变答案的块表明,最终用二个排序模块选拔得分最高的答案作为末了结果。

参与:白悦、王淑婷

A. Word Embeddings(见文章word2vec总结)

那种embedding模型今后大约都是浅层神经网络,并没有索要深层互联网来产生特出的embedding。
但是,基于深度学习的NLP模型总是用这个embedding来代表字,短语甚至句子。
那其实是观念的遵照字数总计的模型和依照深度学习的模子之间的首要分裂。
Word embedding在大规模的NLP义务中发出了state of
art的作用(韦斯顿等人,二〇一三; Socher等,二〇一三a; Turney和Pantel,二零零六)。

结果

DCR achieves state-of-the-art exact match and F1 scores on the SQuAD
dataset.
试验结果表明,DC奇骏在SQuAD数据集上EM值和F1值都实现了优质的结果。

style=”font-size: 16px;”>未来的对话问答数据集,大多把答案限定在了给定段落的界定内,这种答案有时候不仅不自然,而且还要依靠难点与段落之间的词汇相似性。导致机器有时风马牛不相及,显得有个别死板。本文建议的一种流行性对话数据集
CoQA,囊括来自 7 个分裂领域的文件段落里 8000 个对话中的 127,000
轮问答,内容丰裕。而且该问答系统协理自由方式的答案,使机器回答难题不再那么照葫芦画瓢,而是灵活种种。

B. Word2vec(见文章word2vec总结)

表I提供了常事用来创立进一步embedding方法深度学习模型现有框架的目录。

图片 2

斟酌背景

** Reading comprehension-based question answering (RCQA)**
据悉阅读精通的问答研讨

  • The task of answering a question with a chunk of text taken from
    related document(s).
    任务是从相关文书档案中提取一段文本作为答案。
  • In previous models, an answer boundary is either easy to determine
    or already given.
    在在此以前的提议的模子中,难题答案或然简单鲜明,只怕曾经给定。
  • In the real-world QA scenario, people may ask questions about both
    entities (factoid) and non-entities such as explanations and reasons
    (non-factoid)
    在实际世界的QA场景中,难点的花样既有关于实体的(factoid),又有非实体的(non-factoid),比如寻求解释或然原因(non-factoid)。

大家不足为奇以咨询的办法来向旁人求解或测试对方。然后根据对方的作答,大家会持续提问,然后他们又依照此前的座谈来答复。那种鲁人持竿的法门使对话变得简洁明了。不能树立和维系那种问答格局是虚拟助手非常小概变成可信对话伙伴的一些原因。本文建议了
CoQA,1个权衡机器出席问答式对话能力的对话问答数据集。在 CoQA
中,机器必须明白文本段落并回复对话中出现的一层层难点。切磋人口支出 CoQA
时首要考虑了两个至关心爱抚要对象。

C. Character Embeddings(字符embedding)

google的参阅地址http://colinmorris.github.io/blog/1b-words-char-embeddings

Word
Embedding能够捕获句法和语义音信,不过对于POS标注和NETucson等职分,形态和形象音信也是极度管用的。一般的话,在character
层面营造自然语言精晓系统的已引起了肯定的钻研关心, (Kim et al., 2015;
Dos 桑托斯 and Gatti, 2015;Santos and Guimaraes, 二零一四; Santos and
Zadrozny, 2015).

在有些形态丰硕的言语的NLP职责中的表现出更好的结果。
(桑托斯和Guimaraes,二零一四)应用字符层次的象征,以及NERubicon的词嵌入,在葡萄牙共和国(República Portuguesa)语和阿拉伯语语言质地库中落到实处先河进的结果。(Kim等人,二〇一四)在仅使用字符嵌入创设的神经语言模型方面显得出积极的法力。
(Ma et
al。,2014)利用了回顾字符安慕希组在内的多少个embedding,以纳入在NE冠道的光景文中学习预磨练的价签嵌入的原型和支行新闻。Ma
et
al。,2014)利用了总结字符安慕希组在内的多少个放置,以纳入在NEOdyssey的左右文中学习预操练的价签嵌入的原型和分层音信。

Charactee
embedding也自然能处理未登录单词的难点,因为各样单词都被认为不可是单个字母的结缘。语言学中以为,文本不是由独立的单词组成,单词和单词的语义也映射到其构成字符中(如普通话),character层次的构建系统是防止单词分割的本来选择(Chen
et al。,二〇一五A)。
由此,使用那种语言的纵深学习使用的小说多次倾向于character
embedding超过word embedding(Zheng et al。,二零一一)。 例如(Peng et
al。,2017)评释, radical-level processing能够大大进步心情分类的展现。
尤其是,他们建议了三种档次的依照普通话的 radical-based hierarchical
embeddings,其中不仅含有radical和character层面包车型地铁语义,而且含有心理音讯。

难点项目:factoid&non-factoid##\

Q1和 Q2属于factoid类型的难点,Q3属于non-factoid类型的难点

图片 3

Paste_Image.png

** Dynamic chunk reader **

  • uses deep networks to learn better representations for candidate
    answer chunks, instead of using fixed feature representations
    Second
    用深度互连网学习候选答案更好的表述
  • it represents answer candidates as chunks, instead of word-level
    representations
    候选答案是依据块表达,而不是词表明。

** Contributions**
three-fold

  • propose a novel neural network model for joint candidate answer
    chunking and ranking.
    舆论提议一个新的神经互连网模型以整合候选答案块和排序,答案以一种端对端的情势营造和排序。
    In this model the candidate answer chunks are dynamically
    constructed and ranked in an end-to-end manner
  • propose a new ** question-attention mechanism ** to enhance
    passage word representation used to construct chunk
    representations.
    提出了一种新的难题-注意力机制来压实段落中用语表明,用来营造块表达
  • propose several simple but effective features to strengthen the
    attention mechanism, which fundamentally improves candidate
    ranking。
    提出了二种不难但管用的特征来增加注意力机制,那种做法能从根本上排序部分的准确性。

图片 4

3. 卷积神经互连网

CNN能够使得的打桩上下文窗口中的语义音信,抽取句子中的主要意义,然而也设有参数多须求大批量数码、长距离上下文音信的编码和任务音讯的编码等难点。文中对经典CNN及windows-based-CNN、DCNN、TDNN等变种在心理分析、文本分类等职分上的有效使用实行了描述。

(Collobert和韦斯顿,二〇一〇)第②遍利用CNN磨炼句子模型,他们在工作中使用多任务学习来为区其他NLP义务输出预测,如POS标注,块,命名实体标注,语义剧中人物,语义相似度总结和言语模型。使用查找表将每一种单词转换来用户定义维度的向量。因而,通过将查找表应用到其各个单词(图5),输入的n个单词被转化成一名目繁多向量。

图片 5

这足以被认为是在网络陶冶中学习权重的原始词嵌入方法。 在(Collobert et
al。,二零一二)中,Collobert建议一个基于CNN的通用框架来缓解大气的NLP义务扩大了她的看法。
那两项工作都引发了NLP商量中CNNs的普遍普及。
鉴于CNN在计算机视觉的地道表现,人们更便于相信他在nlp中的表现。

CNN有能力从输入句中领到杰出的n-gram特征,为下游任务成立一个音信性潜在语义表示的句子。
该应用程序是由(Collobert等人,二〇一一; Kalchbrenner等,二〇一四;
Kim,二〇一四)的小说开创的,这也招致了继承文献中CNN互联网的宏伟扩散。

舆论要点

图 1:CoQA
数据集中的一个会话。每一种回合都饱含一个难点(Qi),多个答案(Ai)和支撑答案的理由(Ri)。

4. 循环神经互联网

瑞鹰NN的布局适合语言内在的体系特征,而且能够处理任意长度的文件系列。福特ExplorerNN及其变种LSTM、GRU等在本文处理职分中获得了越发普遍的利用。

流行发展是引入了注意力机制

题目定义

依照1个段落P,通过甄选2个句子A,回答3个事实型的照旧非事实型的标题Q。
Q,P,A都以句子类别,共用三个语汇表V。
演习集的组成为长富组(P,Q,A)
CR-VC义务项目:
quiz-style,MovieQA:难点有四个选项
Cloze-style:平常通过代表在句子中的空格来自动生成答案。
answer selection:从文本中甄选一些当作答案。
TREC-QA:从给定的多少个段落文本中提起factoid答案
bAbI::估摸意图
SQuAD数据集:满意事实型和非事实型的答案提取,更就好像于现实世界

第1要考虑的是全人类对话中难点的性质。图 1
展现了正在阅读文章的五个人中间的对话,个中多少个为提问者,另三个为回答者。在此次对话中,第一个难点未来的各样标题都以基于在此以前的对话。例如,Q5(Who?)唯有四个单词,假设不晓得前边的对话是不恐怕答应的。建议简短的难点对人类来说是一种有效的关联格局,但对机器来说却是一种切肤之痛。无人不晓,即便是发轫进的模子在非常大程度上也要依靠于难点与段落之间的词汇相似性(Chen
et al., 二零一五; 韦斯enborn et al.,
2017)。而日前,包括基于对话历史的难点的宽广阅读明白数据集(见表
1)仍未出现,而这就是 CoQA 的第③开发指标。

5. 递归神经互连网

Baseline: Chunk-and-Rank Pipeline with Neural RC

for cloze-style tasks
修改了叁个用以cloze-style tasks的最好的模型,用于那篇著作的答案提取。
It has two main components: 1)

  • Answer Chunking: a standalone answer chunker, which is trained to
    produce overlapping candidate chunks,
  • Feature Extraction and Ranking:a neural RC model, which is used to
    score each word in a given passage to be used thereafter for
    generating chunk scores.
    1)独立的答案区块,被练习以生成重叠候选区块;2)多少个神经揽胜极光C模型,被用来给文章中的每种词实行打分。具体表明如下:

图片 6

6. 深度加深模型与深度无监察和控制学习

DCR

图片 7

Paste_Image.png

DCR works in four steps:

  • First, the encoder layer encode passage and question separately,
    by using bidirectional recurrent neural networks (RNN).
    编码层:应用bi-directional EnclaveNN encoder 对小说Pi 难点 Qi
    进行编码,获得每一个词的隐没状态。
  • Second, the attention layer calculates the relevance of each passage
    word to the question.word-by-word style attention methods
    留神力层:应用word-by-word的注意力机制,计算段落中的各种单词到难点的相关度
  • Third, the chunk representation layer dynamically extracts the
    candidate chunks from the given passage, and create chunk
    representation that encodes the contextual information of each
    chunk.
    在收获attention
    layer的出口后,块象征层能动态变化叁个候选答案块象征。首先是规定候选答案块的边际,然后找到一种格局pooling
  • Fourth, the ranker layer scores the relevance between the
    representations of a chunk and the given question, and ranks all
    candidate chunks using a softmax layer.
    排序层:总计每个答案和难点的相关度(余弦相似性),用三个softmax
    层对候选答案进行排序。

表 1:CoQA
与现有大型阅读明白数据集的相比(约 10 万两个难点)。

A. 用于连串生成的加剧模型

关于加深模型不太精通,学习ing(后边补充),通过一些舆论开头攻读;

1.#文本摘要#

A Deep Reinforced Model for Abstractive Summarization

用 Intra Attention+Supervisd/Reinforcement 混合学习,在 CNN/Daily Mail
数据集的生成式文章摘要上获取了较已有最好成绩 5.7 个 ROUGE 分的提拔。工作源于
Metamind Socher 团队。

官方博客解读:MetaMind
Research

机器之心解读:https://www.jiqizhixin.com/articles/2017-05-13-4

舆论链接:[1705.04304]A Deep Reinforced Model for Abstractive
Summarization

2.#图像标注#

google-Show and Tell:A Neural Image Caption Generator

简书讲解地址:http://www.jianshu.com/p/3330a56f0d5e

今日头条讲解地址:https://zhuanlan.zhihu.com/p/27771046

B.无监察和控制的语句表示学习

C.深度生成模型

对有的不可微的优化难点,将激化学习和纵深神经互连网结合的方法(特别是在一些转变模型中)取得了情有可原的职能。

实验

CoQA
的第3个对象是有限帮衬对话中答案的自然性。很多共处的 QA
数据集把答案限制在给定段落的接连范围内,也被号称可领取答案(表
1)。那样的答案有时候不是很自然,例如,图 1 中 Q4(How
many?)就没有可领取答案。在 CoQA
中,答案能够是即兴格局的文书(抽象答案),而领取跨度则作为实际上答案的参阅。因而,Q4
的答案即使只是不难的『Three』,但却是参照多句话所得出的下结论。

7.回忆增强网络

Stanford Question Answering

Dataset (SQuAD)
特点:包含了factoid和non-factoid questions
100k 的起点维基百科的536篇小说的难点-小说对

CoQA 的第三个对象是营造跨域稳定执行的 QA
系统。当前的 QA
数据集首要集中在单个域上,所以不便测试现有模型的泛化能力。由此,研讨人口从多少个例外的园地收集数据集——小孩子典故、历史学、中学和高中国和扶桑语考试、消息、维基百科、科学和
Reddit。倒数用于域外评估。

8. 总结

小结近几年发布的在标准数量集上的一文山会海长远学习情势在表III-VI中的多少个根本NLP大旨的显现,我们的对象是为读者提供常用数据集和见仁见智模型的风靡技术。

input word vector:5个部分

  1. a pre-trained 300-dimensional GloVe embedding
  • a one-hot encoding (46 dimensions) for the part-of-speech (POS) tag
    of w;
    3个46维的one-hot向量,用来代表词语的词性
  • a one-hot encoding (14 dimensions) for named entity (NE) tag of w;
    2个14维的one-hot 向量 ,用来时辰词语的命名实体性质
  • a binary value indicating whether w’s surface form is the same to
    any word in the quesiton;
    二个二元值,表征二个用语的表面格局是不是与题材的其余词语相同
  • if the lemma form of w is the same to any word in the question;

简单的讲,CoQA 具有以下重点特征:

A.词性标注

WSJ-PTB(佩恩 Treebank
Dataset的华尔街早报部分)语言材料库包括117万个tokens,并被大规模用于支付和评估POS标注系统。
(Gim´enez and Marquez,
二零零二)接纳了多个依据七单词窗口内的手动定义特征的一对多SVM模型,当中有个别着力的n-gram格局被评估形成二进制特征,如:
“previous word is the”, ”two preceding tags are DT NN”, 等等.

训练

We pre-processed the SQuAD dataset using Stanford CoreNLP tool5 (Manning
et al.2014) with its default setting to tokenize the text and obtainthe
POS and NE annotations.
用 Stanford CoreNLP tool5以此工具对SQuAD 数据集进行预处理
To train our model, we used stochastic gradient descent with the ADAM
optimizer

  • 经过文件段落从 八千 个对话中搜集了 127,000
    轮问答(每段约一个对话)。平均会话长度为 18回合,每一趟合包罗1个难题和二个答案。
  • 私自方式的答案。每一个答案都有1个提取理由,在段落中特出呈现。
  • 文本段落来自四个例外的领域——几个用于域内评估,多个用于域外评估。

B. Parsing

实验结果

图片 8

Paste_Image.png

We also studied how each component in our model contributes to the
overall performance.

图片 9

Paste_Image.png

发表评论

电子邮件地址不会被公开。 必填项已用*标注