12 papers to understand QA system with Deep Learning

2023-10-27

由于最近入手NLP任务,需要看一些paper,本文对最近两周看的paper做个总结,适用于有deep learning背景,希望了解NLP应用的同学,主要针对NLP方向: 问答系统(QA)和翻译(Machine Translation)。本文提到的12篇paper比较有代表性,这里感谢总理和江哥提供部分参考paper和指导帮助。

论文列表:(其中QA为Question Answer的缩写)

  1. Neural Machine Translation by Jointly Learning to Align and Translate
    任务: 机器翻译
    关键词:attention BiRNN
    中心思想: English -> encoder -> decoder -> Chinese。其中encoder一般是一个RNN,读入一个词序列,输出一个表示该句话的vector;decoder一般也是一个RNN,输入该句话的表示vector,再以序列输出,每个时刻预测下一个词 yt

    常用优化目标:令 p(y) 最大,其中






    c是encoder输出的原句vector表示,
    st 是decoder RNN的 hidden state,
    yt1 t1 时刻预测的翻译词,
    g 是非线性函数。

    i.e., 基于{上一时刻预测词,当前decoder状态,输入句子(待翻译句子)的encoder vector表示} 确定当前时刻输出词。

    方法:本文中,
    encoder: 一个双向RNN,从前到后,从后往前各读一遍输入序列
    decoder: encoder的c变成了 ci

本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

12 papers to understand QA system with Deep Learning 的相关文章

  • 词干函数错误:词干需要一个位置参数

    这里的stem函数显示错误 指出stem需要循环中的一个位置参数 如所讨论的 from nltk stem import PorterStemmer as ps text my name is pythonly and looking fo
  • 生成易于记忆的随机标识符

    与所有开发人员一样 我们在日常工作中不断处理某种标识符 大多数时候 它与错误或支持票有关 我们的软件在检测到错误后 会创建一个包 该包的名称由时间戳和版本号格式化 这是创建合理唯一标识符以避免混淆包的一种廉价方法 例子 错误报告 20101
  • 将单引号替换为双引号并排除某些元素

    我想用双引号替换字符串中的所有单引号 但出现的情况除外 例如 n t ll m 等 input the stackoverflow don t said hey what output the stackoverflow don t sai
  • 否定句子的算法

    我想知道是否有人熟悉算法句子否定的任何尝试 例如 给定一个句子 这本书很好 请提供任意数量的意思相反的替代句子 例如 这本书不好 甚至 这本书不好 显然 以高精度实现这一点可能超出了当前 NLP 的范围 但我确信在这个主题上已经有了一些工作
  • 语音识别中如何处理同音词?

    对于那些不熟悉什么是同音字 https en wikipedia org wiki Homophone是的 我提供以下示例 我们的 是 嗨和高 到 太 二 在使用时语音API https developer apple com docume
  • 如何确保用户只提交英文文本

    我正在构建一个涉及自然语言处理的项目 由于nlp模块目前只处理英文文本 所以我必须确保用户提交的内容 不长 只有几个单词 是英文的 是否有既定的方法来实现这一目标 首选 Python 或 Javascript 方式 如果内容足够长我会推荐一
  • 用于估计(一元)困惑度的 NLTK 包

    我正在尝试计算我所拥有的数据的困惑度 我正在使用的代码是 import sys sys path append usr local anaconda lib python2 7 site packages nltk from nltk co
  • python中的语音识别持续时间设置问题

    我有一个 Wav 格式的音频文件 我想转录 我的代码是 import speech recognition as sr harvard sr AudioFile speech file wav with harvard as source
  • 快速NLTK解析成语法树

    我正在尝试将数百个句子解析为语法树 我需要快速完成 问题是如果我使用 NLTK 那么我需要定义一个语法 而我不知道我只知道它会是英语 我尝试使用this https github com emilmont pyStatParser统计解析器
  • 阻止斯坦福核心 NLP 服务器输出它收到的文本

    我正在运行一个斯坦福核心自然语言处理 http stanfordnlp github io CoreNLP server java mx4g cp edu stanford nlp pipeline StanfordCoreNLPServe
  • 缩短文本并仅保留重要句子

    德国网站 nandoo net 提供了缩短新闻文章的可能性 如果使用滑块更改百分比值 文本会发生变化并且某些句子会被遗漏 您可以在这里看到它的实际效果 http www nandoo net read article 299925 http
  • 给定文档,选择相关片段

    当我在这里提出问题时 自动搜索返回的问题的工具提示给出了问题的前一点 但其中相当一部分没有给出任何比理解问题更有用的文本 标题 有谁知道如何制作一个过滤器来删除问题中无用的部分 我的第一个想法是修剪仅包含某个列表中的单词的任何前导句子 例如
  • Lucene 标准分析器与 Snowball

    刚刚开始使用 Lucene Net 我使用标准分析器索引了 100 000 行 运行了一些测试查询 并注意到如果原始术语是单数 则复数查询不会返回结果 我知道雪球分析器增加了词干支持 这听起来不错 不过 我想知道 超过标准的雪球锣是否有任何
  • Rasa core 和 Rasa nlu 之间的区别

    我试图理解之间的区别拉莎核心 https core rasa ai and Rasa NLU https nlu rasa ai installation html从官方文档看的 但我不太明白 我的理解是Rasa core用于引导对话流程
  • NLTK 可用的停用词语言

    我想知道在哪里可以找到 NLTK 停用词支持的语言 及其键 的完整列表 我找到一个列表https pypi org project stop words https pypi org project stop words 但它不包含每个国家
  • 在 Python 中识别大型字符串列表中的项目之间的文本相似性的最有效方法是什么?

    下面的代码实现了我想要实现的结果 有一个称为 引理 的字符串列表 其中包含特定类别单词的可接受形式 另一个列表称为 形式 包含在不同时期和特定语言的不同方言的大量文本中发现的单词的许多拼写变体 对于 forms 中的每个单词 我想获取 le
  • 如何从Python中的阿拉伯字符串中删除英文文本?

    我有一个带有英文文本和标点符号的阿拉伯字符串 我需要过滤阿拉伯文本 我尝试使用 sting 删除标点符号和英语单词 但是 我失去了阿拉伯语单词之间的空格 我哪里错了 import string exclude set string punc
  • 使用 NLTK 生成字典以将推文分类为预定义类别

    我有一个 Twitter 用户 screen names 列表 我需要根据他们的兴趣领域将他们分为 7 个预定义类别 教育 艺术 体育 商业 政治 汽车 技术 我用 Python 提取了用户的最后 100 条推文 并在清理推文后为每个用户创
  • 池化与随时间池化

    我从概念上理解最大 总和池中发生的情况作为 CNN 层操作 但我看到这个术语 随时间变化的最大池 或 随时间变化的总和池 例如 用于句子分类的卷积神经网络 https arxiv org pdf 1408 5882 pdfYoon Kim
  • 如何在 scikit-learn 的 SVM 中使用非整数字符串标签? Python

    Scikit learn 具有相当用户友好的用于机器学习的 python 模块 我正在尝试训练用于自然语言处理 NLP 的 SVM 标记器 其中我的标签和输入数据是单词和注释 例如 词性标记 而不是使用双精度 整数数据作为输入元组 1 2

随机推荐

  • 每日一题系列:不要二

    二货小易现有一个W H的网格盒子 网格的行编号为0 H 1 网格的列编号为0 W 1 每个格子可放1块蛋糕 任意两块蛋糕的欧几里得距离不能等于2 对于两个格子坐标 x1 y1 x2 y2 的欧几里得距离为 x1 x2 x1 x2 y1 y2
  • ModuleNotFoundError: No module named ‘scipy.misc.pilutil‘

    python 3 8 pillow 6 0 0 scipy 1 7 3 报错后 有老哥说 pip scipy 1 1 0 原理是scipy中没有imread了 原语句 from scipy misc pilutil import imrea
  • [人工智能-深度学习-41]:开发环境 - GPU进行训练安装与搭建(Pytroch、TensorFlow、Nvidia CUDA)详细过程

    作者主页 文火冰糖的硅基工坊 文火冰糖 王文兵 的博客 文火冰糖的硅基工坊 CSDN博客 本文网址 https blog csdn net HiWangWenBing article details 121241620 目录 第1章 英伟达
  • wireshark抓包筛选固定流并转发

    wireshark抓包筛选固定流并转发 1 筛选固定ip或端口 2 复制数据 在弹框中选择原始数据 全选数据并粘贴保存成txt 3 发送数据 打开网络调试助手 点击发送文件 选择保存的文件并发送 即可实现数据转发
  • Windows 10中的Docker实践

    题记 微软在人们的心目中就是商业化的代名词 操作系统 Office 数据库 Azure等可能是我们耳熟能详的 当然微软也在布局更多的技术王国 开源界对微软一直嗤之以鼻 指责其闭源行为影响技术的发展 不过微软现在也在积极改变以往的傲慢态度 慢
  • 若依系统基于nacos注册中心搭建

    目录 nacos问题 项目内部问题 MySQL的问题 redis的问题 操作流程https blog csdn net maitian 2008 article details 118579638 ops request misc 257B
  • Quartus II 13.0波形仿真

    先放结论 Quartus II 13 0有自带的仿真工具 能实现波形仿真 之前一直找不到关于Quartus II 13 0的波形仿真 然后百度的都是说quartus ii 9 0之后的版本就没有这个功能了 只能再下一个modelsim之类的
  • unity 第四期

    1 在Unity里3个update FixedUpdate Update LateUpdate 的用法和区别 9ria游戏开发社区的黄祖祥的文章 关于Unity3D中的Update LateUpdate FiexdUpdate http b
  • 《Python数据分析基础教程:NumPy学习指南:第二版》读书笔记

    内容 主要介绍了NumPy库中的函数 组成方式 用非常零散的知识点串联成章节 内容摘要 极简地展示了章节中所运用的函数 第一章 arrange函数创建NumPy数组 第二章 NumPy特性 在NumPy中 复数的虚部是用j表示的 如果数组中
  • go基础详解2-go run & test

    一 go run 编译运行一个main 包 package 常用的运行方式如下 go run go run hello go run 后面接路径 该路径 不含子路径 下所有的go源文件都属于main包 go run filename1 fi
  • Jmeter性能综合实战 —— 签到及批量签到

    提取性能测试的三个方面 核心 高频 基础功能 签 到 请 求 步 骤 1 准备工作 签到线程组n HTTP请求默认值n HTTP cookie 管理器n 首页访问请求n 登录请求n 查看结果树n 调试取样器l HTTP代理服务器 1 创建线
  • docker查看日志方式

    docker查看日志方式 docker logs tail 1000 lt 容器id 名称 gt 查看容器前多少行的日志 docker compose f docker compose app yml logs f 查看所有容器的运行日志
  • Dubbo Main启动方式浅析

    服务容器是一个standalone的启动程序 因为后台服务不需要Tomcat或JBoss等Web容器的功能 如果硬要用Web容器去加载服务提供方 增加复杂性 也浪费资源 服务容器只是一个简单的Main方法 并加载一个简单的Spring容器
  • Latex:公式输入序号及多个公式一起编号

    begin equation begin split a b c 说明 这里双斜杠表示换行 在等号前面加 符号表示上下公式等号对齐 m h g label 公式1 说明 label 表示这组公式的记号 方便后续引用 end split en
  • 内网穿透的应用-Cloudreve搭建云盘系统,并实现随时访问

    文章目录 1 前言 2 本地网站搭建 2 1 环境使用 2 2 支持组件选择 2 3 网页安装 2 4 测试和使用 2 5 问题解决 3 本地网页发布 3 1 cpolar云端设置 3 2 cpolar本地设置 4 公网访问测试 5 结语
  • 视频编解码发展历程(从AVC到HEVC再到VVC)(一)

    视频编解码发展历程 从AVC到HEVC再到VVC 一 概述 视频编码标准介绍 概述 在过去的17年里 自2003年确定现在仍占主导地位的 H 264 运动图像专家组 MPEG 4 高级视频编码 AVC 标准的第一个版本以来 已经又开发了两个
  • python 因果推断_因果推理入门指南-必须的7个步骤

    原标题 因果推理入门指南 必须的7个步骤 社会科学的研究 不管是经济学 社会学 还是心理学都离不开数据的支持 虽说数据科学只是工具 但对工具的误解会导致人们问出错误的问题 如今我们知道了从数据中 可以通过系统化的算法 定量的去描述因果关系
  • 当前端的一次操作会调用多个有关联的后台接口

    由于历史原因 前端的一次操作需要调用多个后台接口 以前写的一般都是调用一个的 或者哪怕是多个 接口之间也不会有依赖 但最近做的需求里 前端一次操作需要调用两个后台接口 且这两个接口是有关联的 需要先调用接口A 再调用接口B 一开始直接写两个
  • Zabbix的客户端安装教程

    Zabbix的客户端安装教程 一 Zabbix客户端及其它相关介绍 二 Zabbix客户端安装步骤 三 测试安装结果 一 Zabbix客户端及其它相关介绍 1 zabbix是一个基于WEB界面的提供分布式系统监视以及网络监视功能的企业级的开
  • 12 papers to understand QA system with Deep Learning

    由于最近入手NLP任务 需要看一些paper 本文对最近两周看的paper做个总结 适用于有deep learning背景 希望了解NLP应用的同学 主要针对NLP方向 问答系统 QA 和翻译 Machine Translation 本文提