Understanding Dataset Design Choices for Multi-hop Reasoning

2023-11-13

Understanding Dataset Design Choices for Multi-hop Reasoning (NAACL 2019) 阅读笔记

记录论文中几个有趣的实验。

1.单句包含答案实验

首先做了一个简单的实验,给模型输入一个句子以及问题,模型输出该句包含问题对应答案的概率。然后在这两个数据集上分别训练了这么一个模型,再测试,发现超过一半的样例都成功判断出了包含答案的句子。

实验结果表明:不进行多跳推理就可以定位答案。这可能是由于模型具有简单的词汇匹配功能。

【思考】:答案预测是以命名的实体为驱动的,从而浅层的匹配功能就能完成答案的预测。能否设计出不以实体为驱动的问题?或者设计出能够产生实体层面干扰的distractor sentences?

2.可以可以不看文章直接答

对于wikihop 数据集,只给模型问题以及候选答案集合,不给定文章,让模型预测答案。

实验结果:

给只问题就选择答案,准确率竟然达到了59.70!

3.Span-based vs. Multiple-choice

HotpotQA是一个span式的数据集,而Wikihop则是一个多选的数据集。作者把hotpotQA(distractor setting)中的不包含答案的其余9个文档中抽取出一个实体,这9个实体和答案组成候选答案集合,从而将HotpotQA改造成多选数据集。然后对于Wikihop数据集,作者也将其改造成了span式的数据集,具体的改造方法是:把所有文档连接起来,第一次出现答案的位置就是gold span。

实验结果:

做了实验之后发现,在HotpotQAWikihop-Span(基于答案抽取的Wikihop)上得分都比较低,而在HotpotQA-MC(多选择式的hotpotQA)Wikihop上的结果都挺高的。

作者经过分析得到了以下结论:
(1)当训练集和测试集都是多选数据集的时候,模型(注意是论文中进行实验的模型)就不会多跳推理
(2)Span式的数据集更加 具有挑战性,但仍然有一些问题不需要多跳推理也能回答
(3)给多选式数据集增加选项并不能从本质改变这一现象 (如上图)
(4)Span式的训练数据更加健壮(powerful)

本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

Understanding Dataset Design Choices for Multi-hop Reasoning 的相关文章

  • @RefreshScope详解

    要说清楚RefreshScope 先要了解Scope Scope org springframework beans factory config Scope 是Spring 2 0开始就有的核心的概念 RefreshScope org s
  • React 性能优化

    React 的工作流程是什么 我们可以在哪些阶段进行性能优化呢 如果 React 项目中出现了卡顿 我们可以采用哪些性能优化技巧 如何通过 React Profiler 定位性能问题 React Profiler 包含哪些阶段的信息 大纲
  • 信息熵、条件熵、信息增益率

    1 1 数学分布 分布可能指代不同的东西 比如数据分布或概率分布 这两种分布其实没有本质的区别 可以将x看做随机点 某一数据分布P为目标分布 概率分布f为x落在P上的概率值 形式化表示为f x 假设我们是一组正在广袤无垠的太空中进行研究的科
  • imx6 reboot指令无法重启 & kernel 停留在start kernel ......

    reboot指令无法重启 log root imx6dlsabresd reboot Thesystem is going down for reboot NOW d ttymxc0 Tue Oct 11 06 41 03 2016 INI
  • UE4中实现鼠标拖动游戏中的物体

    一 显示鼠标光标 启用鼠标点击事件 可以在关卡蓝图中或者游戏模式中加入下面代码 二 点击物体进入选中状态 三 根据通道获取命中结果 通过这个函数可以获取当前鼠标光标下接触的actor 重新设定actor位置即可 这里可以将类型转换去掉 就可
  • VBS中WScript.Shell对象的run和exec的使用及区别

    VBS中WScript Shell对象的run和exec的使用及区别 方法声明 Function Exec ByVal Command As String As WshExec Function Run ByVal Command As S
  • YARN 删除所有ACCEPTED任务的命令

    删除所有ACCEPTED任务的命令 for i in yarn application list grep w ACCEPTED awk print 1 grep application do yarn application kill i
  • 方差、协方差和协方差矩阵

    上次写了相关系数 其实很类似的一个概念是协方差 要说协方差 先复习下基本的统计内容 1 均值 2 方差 标准差 标准方差 或者写为 简单来说 标准差是一组数值自平均值分散开来的程度的一种测量观念 一个较大的标准差 代表大部分的数值和其平均值
  • SPA(单页应用)知多少

    单页面应用程序将所有的活动局限于一个Web页面中 在该Web页面初始化时加载相应的HTML JavaScript 和 CSS 一旦页面加载完成 单页面应用不会因为用户的操作而进行页面的重新加载或跳转 取而代之的是利用 JavaScript
  • JAVA JBDC连接MySql数据库示例心得一

    gt 下载MySql数据库驱动解压获得JAR文件导入编写的Java程序中 下图中1是复制过来的驱动文件 2是导入的文件 要导入才可以用 gt 连接数据库 数据查询 数据更新 A是数据库对应的数据类如下 package com jdbc pu
  • 反转字符串

    题目来源 力扣 LeetCode 链接 https leetcode cn com problems reverse words in a string iii 给定一个字符串 s 计算具有相同数量0和1的非空 连续 子字符串的数量 并且这
  • GD32F303 Keil 5.33 开发环境搭建流程

    目录 1 资源准备 2 Keil5安装流程 第一步 解压缩包 第二步 安装Keil5 第三步 安装GD32芯片支持包环境 总结 1 资源准备 Keil 5 33安装包 注册机 支持包 固件库 这里作者已经帮大家准备好了 见链接 百度网盘ht
  • 常用的el-input文本正则限制

    1 只能输入英文字母和数字 不能输入中文
  • 静态时序分析——多周期、半周期和伪路径

    一 多周期 multicycle paths 在一些情况下 如下图所示 两个寄存器之间的组合电路传输的逻辑延时超过一个时钟周期 在这样的情况下 这个组合路径被定义为多周期路径 multicycle path 尽管后一个寄存器会在每一个的时钟
  • Kubernetes详解(三十七)——PV与PVC

    今天继续给大家介绍Linux运维相关知识 本文主要内容是Kubernetes PV与PVC 一 PV和PVC详解 当前 存储的方式和种类有很多 并且各种存储的参数也需要非常专业的技术人员才能够了解 在Kubernetes集群中 放了方便我们
  • 闲鱼x-sign, x-mini-wua算法签名接口调用

    远程调用x sign x mini wua算法接口链接 xxxxx 5000 xianyu sign mim wua itemId 649780866851 x sign 结算结果需要传入的参数值 deviceId utdid appKey
  • 逗号运算符

    逗号运算符是指在C语言中 多个表达式可以用逗号分开 其中用逗号分开的表达式的值分别结算 但整个表达式的值是最后一个表达式的值 在前端的一些笔试中也可以看到逗号运算符的存在 作为C语言中的运算级别最低的一员 逗号运算符 结合的方向是 从左往右
  • dat文件

    DAT 数字录音带 是一种用于磁带数字录音的专业品质级别的标准媒体和技术 DAT设备就是一个数字磁带录音器 具有与录像机相似的旋转型磁头 大多数的DAT设备都能以44 1千赫 CD音频标准 以及48千赫的采样率来录音 DAT已经成为掌握录音
  • 在Java中如何判断字符串的编码格式

    最近 我一直试图寻找一种判断Java程序中字符串编码格式的方法 同时 也查找了很多资料 设计了一个的程序 美中不足的是该方法对仅含有数字和英文字母的字符串无效 原理 ASCII GBK UTF 8对数字和英文字母的编码相同 对其它字符编码不
  • GD32F105的CAN通讯,可以发送数据,但接收不到数据

    项目简介 使用的芯片型号GD32F105VC 芯片资源CAN1 波特率500k 调试过程中发现发送数据正常 但是接收不到数据 总结几点注意事项如下 1 需要设置滤波器 若未设置滤波器 则接收不到数据 傻傻的认为滤波器配置问题 以为注释掉滤波

随机推荐

  • vue-vuetify-admin案例讲解

    vue vuetify admin案例讲解 1 Introduction 1 1 directory structure 1 2 vue cli 1 3 vuex 1 3 1 在store目录创建index js 1 3 2 在main j
  • 队列(一种遵循先进先出原则的数据结构)

    目录 1 队列 Queue 2 队列的抽象数据类型 队列ADT 3 队列接口 4 利用数组实现队列 4 1 队列的实现 4 2 利用数组实现队列的优势与缺点 5 利用单链表实现队列 5 1 队列的实现 5 2 利用单链表实现队列的优势与缺点
  • js对象的继承

    学无止境 望君把握时间 首先我们需要定义一个类 定义一个动物类 function Animal name 属性 this name name Animal 实例方法 this sleep function console log this
  • js增加class或者删除class

    1 比较传统的方法 var classVal document getElementById id getAttribute class 删除的话 classVal classVal replace someClassName docume
  • GAMES101: 现代计算机图形学入门(2)几何、光线追踪

    GAMES101 现代计算机图形学入门 链接 GAMES101 1 几何 1 1 几何的表示 隐式几何 通过一个函数表达式来表示的几何体 即 f x y z 0 优点 很容易判断一个点在不在几何体上 缺点 很难通过表达式看出几何体的形状 显
  • 菜鸟求职记6

    来到古城已经整整38天了 本想快快的找到工作然后做自己这三年来都没有做的事情 旅游 看电视 打篮球 打乒乓球 可是 事实却并非如此 这一个多月的苦衷可以说是一言难尽呀 到了此时此刻 恐怕每一个人都已经累得奄奄一息了 每个人曾经的自信都被现实
  • StrongSORT:Make DeepSORT Great Again

    1北京邮电大学2中国网络系统与网络文化北京市重点实验室 摘要 现有的多目标跟踪 Multi Object Tracking MOT 方法大致可以分为基于检测的跟踪和联合检测关联两种范式 虽然后者引起了更多的关注 并显示出与前者相当的性能 但
  • 在Android studio中Intent的几种基本使用方法

    在Android开发中 Intent是最基本也是最常用的操作 在Activity Service BroadcastReceiver这些核心组件中也需要Intent进行操作 下面我们具体介绍Intent在开发中的一些基本用法 假定目前有Fi
  • 第三方支付 -----支付宝支付流程

    大家都知道 第三方支付 已经普遍都在使用 所以我今天就说一下支付宝的支付流程 首先进入支付宝平台 点击开发中心 研发服务 获得沙盒的appid以及商户公钥和支付宝公钥 然后利用秘钥生成软件生成私钥和公钥 建立keys文件夹 将私钥和公钥文件
  • 将日期字符串转成LocalDateTime

    如果直接用LocalDateTime parse将日期字符串 yyyy MM dd 转成LocalDateTime会导致报错 所以我这里提供了将日期字符串转成LocalDateTime的方法 仅供参考 如有更好方式 欢迎大家分享 impor
  • WSL2报错:nvidia-smi Command ‘nvidia-smi‘ not found, but can be installed with:

    这里写自定义目录标题 找了很多方法 解决 分割线 WSL2部署 找了很多方法 在社区找了很多方法 结果在b站评论区找到了一个方法给解决了 原本一开始有人说是驱动版本问题 我nvcc V是ok的 但是nvidia smi一直报错 Comman
  • LaTeX排版(一):字体、页眉页脚、页边距、行距的设置

    目录 字体设置 布局设置 页眉页脚设置 行距的设置 其他 字体设置 字体设置需要用到宏包fontspec 需要在导言区添加如下指令 usepackage fontspec 中英文字体都可以分为如下3种 正文字体族 无衬线字体族 打字机字体族
  • 十进制转十六进制 C++

    目录 题目描述 思路分析 AC代码 题目描述 编写一个函数 传入一个十进制的正整数 将十进制整数转换为十六进制的字符串并返回 十六进制字符串中的字母全部大写 输入描述 键盘输入一个十进制的正整数 输出描述 输出该十进制整数转换后的十六进制字
  • 硬盘柱面损坏怎么办_最靠谱的机械硬盘坏道修复工具一:DiskGenius

    DiskGenius是一款硬盘分区 数据修复软件 DiskGenius的功能非常丰富 然而很多时候 我们都只是用DiskGenius来分区硬盘 对硬盘进行一些常规性能的操作 常常忽略了DiskGenius最重要的一个功能 那就是机械硬盘的坏
  • vue 按钮权限

    项目中按钮的操作权限我们可以直接使用 v if 判断就行 但是每个页面都要写一堆判断不太雅观 所以 可以写一个全局函数或者自定义指令 两种方式优雅的实现 一 全局函数 一般在登陆接口中后台就把权限列表信息提供了 可以把他存到缓存或者vuex
  • 从零开始完成YOLOv5目标识别(三)用PyQt5展示YOLOv5的识别结果

    往期内容 从零开始完成Yolov5目标识别 二 制作并训练自己的训练集 从零开始完成Yolov5目标识别 一 准备工作 目录 往期内容 一 项目框架 二 核心内容 1 QtDesign设计 2 检测部分 2 1 导包 2 2 main py
  • js-image-compressor 图片压缩插件

    1 安装插件 npm i js image compressor 2 引入 import ImageCompressor from js image compressor 3 使用 compressionImage file return
  • 加入ehcache后,系统出现内存泄漏,解决办法

    最近在系统中 加入缓存ehcache 但发现 每隔一天 服务器就会报出内存溢出 问题严重 后来在网上查资料发现 一篇解释的网文 spring中的提供了一个名为org springframework web util Introspector
  • Android从源码分析RecyclerView四级缓存复用机制一(缓存ViewHolder)

    RecyclerView相比较ListView先说多了多布局和缓存 目前已经在Android列表中大量普及使用 面试中也经常问到 所以对于RecyclerView的四级缓存机制也叫复用回收机制的分析很有必要 这部分很重要请 全村人来听 先说
  • Understanding Dataset Design Choices for Multi-hop Reasoning

    Understanding Dataset Design Choices for Multi hop Reasoning NAACL 2019 阅读笔记 记录论文中几个有趣的实验 1 单句包含答案实验 首先做了一个简单的实验 给模型输入一个