博客
关于我
强烈建议你试试无所不能的chatGPT,快点击我
Text Understanding with the Attention Sum Reader Network
阅读量:6449 次
发布时间:2019-06-23

本文共 1024 字,大约阅读时间需要 3 分钟。

本文是机器阅读系列的第四篇文章,本文的模型常出现在最新的机器阅读paper中related works部分,也是很多更好的模型的基础模型,所以很有必要来看下这篇paper,看得远往往不是因为长得高,而是因为站得高。本文的题目是,作者是来自IBM Watson的研究员Rudolf Kadlec,paper最早于2016年3月4日submit在arxiv上。

本文的模型被称作Attention Sum Reader,具体见下图:

step 1 通过一层Embedding层将document和query中的word分别映射成向量。

step 2 用一个单层双向GRU来encode document,得到context representation,每个time step的拼接来表示该词。

step 3 用一个单层双向GRU来encode query,用两个方向的last state拼接来表示query。

step 4 每个word vector与query vector作点积后归一化的结果作为attention weights,就query与document中的每个词之前的相关性度量。

step 5 最后做一次相同词概率的合并,得到每个词的概率,最大概率的那个词即为answer。

模型在CNN/Daily Mail和CBT的Nouns、Named Entity数据集上进行了测试,在当时的情况下都取得了领先的结果。并且得到了一些有趣的结论,比如:在CNN/Daily Mail数据集上,随着document的长度增加,测试的准确率会下降,而在CBT数据集上得到了相反的结论。从中可以看得出,两个数据集有着不同的特征,构造方法也不尽相同,因此同一个模型会有着不同的趋势。

本文的模型相比于Attentive Reader和Impatient Reader更加简单,没有那么多繁琐的attention求解过程,只是用了点乘来作为weights,却得到了比Attentive Reader更好的结果,从这里我们看得出,并不是模型越复杂,计算过程越繁琐就效果一定越好,更多的时候可能是简单的东西会有更好的效果。

另外,在这几篇paper中的related works中,都会提到用Memory Networks来解决这个问题。接下来的文章将会分享Memory Networks在机器阅读理解中的应用,大家敬请关注。

来源:paperweekly

转载地址:http://hamwo.baihongyu.com/

你可能感兴趣的文章
Java中的escape,unescape方法
查看>>
android获取APK签名信息及MD5指纹
查看>>
java环境搭建系列:JDK环境变量详细配置
查看>>
-Java-JDBC入门
查看>>
fedora 20 下安装 oracle 11g R2 过程
查看>>
==android简易音乐播放器==
查看>>
showdoc使用
查看>>
Eclipse中怎么清除EGit记住的GitHub用户名和密码
查看>>
Oracle数据库备份与还原命令
查看>>
Eclipse JSP 热部署
查看>>
MySQL 覆盖索引
查看>>
查看linux中的TCP连接数
查看>>
Multipart HTTP Requests
查看>>
Linux常用命令
查看>>
数据库高速缓冲区(database buffer cahce)
查看>>
Shell脚本首枚
查看>>
JDK BitSet实现原理
查看>>
vue + vue-router 懒加载 import / resolve+require
查看>>
EXC_BAD_ACCESS的排查
查看>>
当你忘了虚拟机的密码
查看>>