多模态机器翻译

2023-11-14

摘录自 机器翻译 基础与模型 东北大学

1. 背景

基于上下文的翻译是机器翻译的一个重要分支。传统方法中,机器翻译通常被 定义为对一个句子进行翻译的任务。但是,现实中每句话往往不是独立出现的。比 如,人们会使用语音进行表达,或者通过图片来传递信息,这些语音和图片内容都 可以伴随着文字一起出现在翻译场景中。此外,句子往往存在于段落或者篇章之中, 如果要理解这个句子,也需要整个段落或者篇章的信息,而这些上下文信息都是机 器翻译可以利用的。

本节在句子级翻译的基础上将问题扩展为更大的上下文中的翻译,具体包括语音翻译、图像翻译、篇章翻译三个主题。这些问题均为机器翻译应用中的真实需求。 同时,使用多模态等信息也是当下自然语言处理的热点研究方向之一。(本博客重点关注图像翻译,语音翻译和篇章翻译请参见原书。

2. 机器翻译需要更多的上下文

长期以来,机器翻译都是指句子级翻译。主要原因在于,句子级的翻译建模可 以大大简化问题,使得机器翻译方法更容易被实践和验证。但是人类使用语言的过 程并不是孤立地在一个个句子上进行的。这个问题可以类比于人类学习语言的过程: 小孩成长过程中会接受视觉、听觉、触觉等多种信号,这些信号的共同作用使得他 们产生对客观世界的“认识”,同时促使他们使用“语言”进行表达。从这个角度说, 语言能力并不是由单一因素形成的,它往往伴随着其他信息的相互作用,比如,当 人们翻译一句话的时候,会用到看到的画面、听到的语调、甚至前面说过的句子中 的信息。

广义上,当前句子以外的信息都可以被看作一种上下文。比如,下图中,需要 把英语句子“A girl jumps off a bank .”翻译为汉语。但是,其中的“bank”有多个含 义,因此仅仅使用英语句子本身的信息可能会将其翻译为“银行”,而非正确的译文“河床”。但是,图17.1中也提供了这个英语句子所对应的图片,显然图片中直接展示 了河床,这时“bank”是没有歧义的。通常也会把这种使用图片和文字一起进行机器翻译的任务称作多模态机器翻译(Multi-Modal Machine Translation)
在这里插入图片描述
模态(Modality)是指某一种信息来源。例如,视觉、听觉、嗅觉、味觉都可以被 看作是不同的模态。因此视频、语音、文字等都可以被看作是承载这些模态的媒介。 在机器翻译中使用多模态这个概念,是为了区分某些不同于文字的信息。除了图像 等视觉模态信息,机器翻译也可以利用听觉模态信息。比如,直接对语音进行翻译, 甚至直接用语音表达出翻译结果。

除了不同信息源所引入的上下文,机器翻译也可以利用文字本身的上下文。比 如,翻译一篇文章中的某个句子时,可以根据整个篇章的内容进行翻译。显然这种 篇章的语境是有助于机器翻译的。在本章接下来的内容中,会对机器翻译中使用不同上下文(多模态和篇章信息)的方法展开讨论。

3. 图像翻译

在人类所接受的信息中,视觉信息的比重往往不亚于语音和文本信息,甚至更 多。视觉信息通常以图像的形式存在,近几年,结合图像的多模态机器翻译受到了 广泛的关注。多模态机器翻译(下图 (a))简单来说就是结合源语言和其他模态(例如图像等)的信息生成目标语言的过程。这种结合图像的机器翻译还是一种狭义上的“翻译”,它本质上还是从源语言到目标语言或者说从文本到文本的翻译。事实上从图像到文本(下图(b))的转换,即给定图像,生成与图像内容相关的描述, 也可以被称为广义上的“翻译”。例如,图片描述生成(Image Captioning)就是一种 典型的图像到文本的翻译。当然,这种广义上的翻译形式不仅仅包括图像到文本的转换,还可以包括从图像到图像的转换(图©),甚至是从文本到图像的转换(下图(d))等等。这里将这些与图像相关的翻译任务统称为图像翻译。
在这里插入图片描述
本博客重点关注多模态机器翻译,即基于图像增强的文本翻译,其他有关图像翻译的内容参见原书。

4. 基于图像增强的文本翻译

在文本翻译中引入图像信息是最典型的多模态机器翻译任务。虽然多模态机器 翻译还是一种从源语言文本到目标语言文本的转换,但是在转换的过程中,融入了 其他模态的信息减少了歧义的产生。例如前文提到的通过与源语言相关的图像信息, 将“A girl jumps off a bank .”中“bank”翻译为“河岸”而不是“银行”,因为图像 中出现了河岸,因此“bank”的歧义大大降低。换句话说,对于同一图像或者视觉场 景的描述,源语言和目标语言描述的信息是一致的,只不过,体现在不同语言上会 有表达方法上的差异。那么,图像就会存在一些源语言和目标语言的隐含对齐“约 束”,而这种“约束”可以捕捉语言中不易表达的隐含信息。

如何融入视觉信息,更好的理解多模态上下文语义是多模态机器翻译研究的重点[1-3], 主要方向包括基于特征融合的方法[4-6] 和基于联合模型的方法[7,8]。

4.1 基于特征融合的方法

早期,通常将图像信息作为输入句子的一部分[4,9], 或者用其对编码器、解码器的状态进行初始化[4,10,11]. 如下图所示,图中 y< 表示当前时刻之前的单词 序列,对图像特征的提取通常是基于卷积神经网络。通过卷积神经网络得到全局图像特征,在进行维度变换后,将其作为源语言输入的一部分或者初始化状态引入到模型当中。但是,这种图像信息的引入方式有以下两个缺点:

1)图像信息不全都是有用的,往往存在一些与源语言或目标语言无关的信息,作 为全局特征会引入噪音。
2)图像信息作为源语言的一部分或者初始化状态,间接地参与了译文的生成,在神经网络的计算过程中,图像信息会有一定的损失。
在这里插入图片描述
说到噪音问题就不得不提到注意力机制的引入,前面章节中提到过这样的一个例子:
中午/没/吃饭/,/又/刚/打/了/ 一/下午/篮球/,/我/现在/很/饿/ ,/我/想 ___ 。

想在横线处填写“吃饭”,“吃东西”的原因是在读句子的过程中,关注到了 “没/吃饭”,“很/饿”等关键息。这是在语言生成中注意力机制所解决的问题,即对 于要生成的目标语言单词,相关性更高的语言片段应该更加“重要”,而不是将所有 单词一视同仁。同样的,注意力机制也应用在多模态机器翻译中,即在生成目标单 词时,更应该关注与目标单词相关的图像部分,而弱化对其他部分的关注。另外,注意力机制的引入,也使图像信息更加直接地参与目标语言的生成,解决了在不使用注意力机制的方法中图像信息传递损失的问题。
在这里插入图片描述
那么,多模态机器翻译是如何计算上下文向量的呢? 假设编码器输出的状态序列为 { h 1 , . . . , h m h_1,...,h_m h1,...,hm},需要注意的是,这里的状态序列不是源语言句子的状态序列,而是通过基于卷积等操作提取到的图像的状态序列。 假设图像的特征维度是 16 × 16 × 512,其中前两个维度分别表示图像的高和宽,这里会将图像映射为 256 × 512 的状态序列,其中 512 为每个状态的维度。对于目标语言位置 j,上下文向量 C j C_j Cj被定义为对序列的编码器输出进行加权求和,如下:
在这里插入图片描述
其中, α i , j \alpha_{i,j} αi,j是注意力权重,它表示目标语言第 j 个位置与图片编码状态序列第 i 个位置(状态)的相关性大小。

这里,将 h i h_i hi看作图像表示序列位置 i 上的表示结果。上图给出了模型在生成目标词"bank"时,图像经过注意力机制对图像区域关注度的可视化效果。可以看到,经过注意力机制后,模型更关注与目标词相关的图像部分。当然,多模态机器翻译的输入还包括源语言文字序列。通常,源语言文字对于翻译的作用比图像更大[12] 。从这个角度说,在当下的多模态翻译任务中,图像信息更多的是作为文字信息的补充,而不是替代。除此之外,注意力机制在多模态机器翻译中也有很多研究,比如,在编码器端将源语言文本与图像信息进行注意力建模,得到更好的源语言的表示结果[5, 12]。

4.2 基于联合模型的方法

基于联合模型的方法通常是把翻译任务与其他视觉任务结合,进行联合训练。这 种方法也可以被看做是一种多任务学习,只不过这里仅关注翻译和视觉任务。一种 常见的方法是共享模型的部分参数来学习不同任务之间相似的部分,并通过特定的 模块来学习每个任务特有的部分。

如下图所示,图中 y< 表示当前时刻之前的单词序列,可以将多模态机器翻译任务分解为两个子任务:机器翻译和图片生成[7] 。其中机器翻译作为主任务,图片生成作为子任务。这里的图片生成指的是从一个图片描述生成对应图片,对于图片生成任务原书有详细描述。通过单个编码器对源语言数据进行建模,然后通过两个解码器(翻译解码器和图像解码器)来分别学习翻译任务和图像生成任务。顶层学习每个任务的独立特征,底层共享参数能够学习到更丰富的文本表示。
在这里插入图片描述
另外在视觉问答领域有研究表明,在多模态任务中,不宜引入过多层的注意力机制,因为过深的模型会导致多模态模型的过拟合[13] 。这一方面是由于深层模型本身对数据的拟合能力较强,另一方面也是由于多模态任务的数据普遍较少,容易造成复杂模型的过拟合。从另一角度来说,利用多任务学习的方式,提高模型的泛化能力,也是一种有效防止过拟合现象的方式。类似的思想,也大量使用在多模态自然语言处理任务中,例如图像描述生成、视觉问答等[14] 。

5. 参考文献

[1] Lucia Specia, Stella Frank, Khalil Sima’an, and Desmond Elliott. “A Shared Task on Multimodal Machine Translation and Crosslingual Image Description”. In: Annual Meeting of the Association for Computational Linguistics, 2016, pages 543– 553 (cited on page 563).
[2] Ozan Caglayan, Walid Aransa, Adrien Bardet, Mercedes Garcı́a-Martı́nez, Fethi Bougares, Loı̈c Barrault, Marc Masana, Luis Herranz, and Joost van de Weijer. “LIUM-CVC Submissions for WMT17 Multimodal Translation Task”. In: Annual Meeting of the Association for Computational Linguistics, 2017, pages 432–439 (cited on page 563).
[3] Jindrich Libovický, Jindrich Helcl, Marek Tlustý, Ondrej Bojar, and Pavel Pecina. “CUNI System for WMT16 Automatic Post-Editing and Multimodal Translation Tasks”. In: Annual Meeting of the Association for Computational Linguistics, 2016, pages 646–654 (cited on page 563).
[4] Iacer Calixto and Qun Liu. “Incorporating Global Visual Features into Attention- based Neural Machine Translation”. In: Conference on Empirical Methods in Natural Language Processing, 2017, pages 992–1003 (cited on page 563).
[5] Jean-Benoit Delbrouck and Stéphane Dupont. “Modulating and attending the source image during encoding improves Multimodal Translation”. In: Conference and Workshop on Neural Information Processing Systems, 2017 (cited on pages 563, 565).
[6] Jindrich Helcl, Jindrich Libovický, and Dusan Varis. “CUNI System for the WMT18 Multimodal Translation Task”. In: Annual Meeting of the Association for Computational Linguistics, 2018, pages 616–623 (cited on page 563).
[7] Desmond Elliott and Ákos Kádár. “Imagination Improves Multimodal Translation”. In: International Joint Conference on Natural Language Processing, 2017, pages 130–141 (cited on pages 563, 565).
[8] Yongjing Yin, Fandong Meng, Jinsong Su, Chulun Zhou, Zhengyuan Yang, Jie Zhou, and Jiebo Luo. “A Novel Graph-based Multi-modal Fusion Encoder for Neural Machine Translation”. In: Annual Meeting of the Association for Computational Linguistics, 2020, pages 3025–3035 (cited on page 563).
[9] Yuting Zhao, Mamoru Komachi, Tomoyuki Kajiwara, and Chenhui Chu. “Double Attention-based Multimodal Neural Machine Translation with Semantic Image Re- gions”. In: Annual Conference of the European Association for Machine Transla- tion, 2020, pages 105–114 (cited on page 563).
[10] Desmond Elliott, Stella Frank, and Eva Hasler. “Multi-Language Image Descrip- tion with Neural Sequence Models”. In: CoRR abs/1510.04709 (2015) (cited on page 563).
[11] Pranava Swaroop Madhyastha, Josiah Wang, and Lucia Specia. “Sheffield Mul- tiMT: Using Object Posterior Predictions for Multimodal Machine Translation”. In: Annual Meeting of the Association for Computational Linguistics, 2017, pages 470– 476 (cited on page 563).
[12] Shaowei Yao and Xiaojun Wan. “Multimodal Transformer for Multimodal Machine Translation”. In: Annual Meeting of the Association for Computational Lin- guistics, 2020, pages 4346–4350 (cited on page 565).
[13] Jiasen Lu, Jianwei Yang, Dhruv Batra, and Devi Parikh. “Hierarchical Question- Image Co-Attention for Visual Question Answering”. In: Conference on Neural Information Processing Systems, 2016, pages 289–297 (cited on page 565).
[14] Stanislaw Antol, Aishwarya Agrawal, Jiasen Lu, Margaret Mitchell, Dhruv Batra, C.Lawrence Zitnick, and Devi Parikh. “VQA: Visual Question Answering”. In: International Conference on Computer Vision, 2015, pages 2425–2433 (cited on page 565).

本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

多模态机器翻译 的相关文章

  • 【安装教程】vscode安装教程(超详细)

    Visual Studio Code 简称 VSCode 是一款由微软开发且跨平台的免费源代码编辑器 该软件支持语法高亮 代码自动补全 代码重构功能 并且内置了命令行工具和 Git版本控制系统 用户可以更改主题和键盘快捷方式实现个性化设置
  • 关于CDN那些名词,你知道吗?

    Origin Server源站 做 CDN 之前的客户真正的服务器 User 访问者 也就是要访问网站的网民 Last Mile最后一公里 也就是网民到他所访问到的 CDN 服务器之间的路径 域名 域名是Internet网络上的一个服务器或
  • 【C语言进阶】自定义类型详解 —— 结构体,枚举,联合体(共用体)

    文章目录 1 结构体 1 1 结构体类型的声明 1 2 结构体的特殊声明 1 3 结构体的自引用 1 4 结构体变量的定义和初始化 1 5 结构体内存对齐 1 6 修改默认对齐数 1 7 结构体传参 2 位段 2 1 什么是位段 2 2 位
  • 概要设计与详细设计的区别

    概要设计与详细设计的区别 概要设计就是设计软件的结构 包括组成模块 模块的层次结构 模块的调用关系 每个模块的功能等等 同时 还要设计该项目的应用系统的总体数据结构和数据库结构 即应用系统要存储什么数据 这些数据是什么样的结构 它们之间有什
  • 英语常见缩写,职业,公司

    VIP very improtant person重要人物 IMP import 进口 EXP export 出口 MAX maximum 最大的 的最大限度的 MIN minimum 最小的 最低限度 DOC document 文件 的单
  • css圆角容器改变背景色时圆角失效

    圆角的容器 改变背景色时 新背景色却并不是圆角 而是填充的直角 解决办法 给容器加样式 overflow hidden
  • chrony时钟同步详解

    一 简介 Chrony是一个开源的自由软件 它能帮助你保持系统时钟与时钟服务器 NTP 同步 因此让你的时间保持精确 它由两个程序组成 分别是chronyd和chronyc chronyd是一个后台运行的守护进程 用于调整内核中运行的系统时
  • 2023年最新VMware 17+虚拟机详细配置安装【程序员使用指南】!!

    文章目录 Vmware版本选择17Pro安装 自定义安装 填写对应的许可证 正式安装虚拟机 进行对应的配置 配置镜像文件 选择对应的语言 到这个界面 选择中文 安装结束 连接对应的xshell Vmware版本选择17Pro安装 最开始从这
  • 沃尔玛(Walrmart)运营指南,爆单技巧

    沃尔玛自2016年快速扩张以来 发展迅速 甚至屡次与亚马逊公开叫板 各种促销活动针锋相对 使得跨境卖家对于沃尔玛的兴趣不断飙升 但是还是有很多跨境玩家对于这个平台不算了解 更不知道其运营逻辑 今天就为大家讲清楚walmart运营技巧 如何快
  • GitHub 上传文件过大报错:remote: error: GH001: Large files detected.

    1 查看哪个文件过大了 remote Resolving deltas 100 24 24 completed with 3 local objects remote warning File CPT 0707 ao temp past t
  • Leetcode 376.摆动序列

    题目 如果连续数字之间的差严格地在正数和负数之间交替 则数字序列称为 摆动序列 第一个差 如果存在的话 可能是正数或负数 仅有一个元素或者含两个不等元素的序列也视作摆动序列 例如 1 7 4 9 2 5 是一个 摆动序列 因为差值 6 3
  • Ubuntu16.04下编译OpenCV3.0.0

    目录 目录 前言 cmake gui安装过程 CMake编译OpenCV300 CMake编译OpenCV320 前言 原来在海思上使用的是OpenCV2 4 9版本 现在需要在odroid上编译OpenCV3 0 0版本 特此记录 cma
  • CentOS 7 常用软件安装汇总

    基本指令 clear 清屏 pwd 显示当前路径 more 显示文本文档 uname a 查看当前核心版本号 free 查看剩余内存 df h 查看磁盘剩余空间 du sh
  • Tomcat 正确安装并启动后,浏览器访问localhost:8080显示404

    目录 1 确认 Tomcat 安装正确 且已打开 2 查看8080端口是否被占用 3 端口被占用的解决方法 在初次使用 Tomcat 时遇到了一些问题 经过一段时间的调试最终将其解决 个人感觉此问题应该比较常见 因此在这做一个分享 关于 T
  • Web 服务器如何工作

    Web 服务器如何工作 什么是网络服务器 Web 服务器是一种侦听传入连接 然后利用 HTTP 协议将 Web 内容传送给客户端的软件 您会遇到的最常见的 Web 服务器软件是 Apache Nginx IIS 和 NodeJS Web 服
  • 某翻译平台的爬虫坑,你踩了吗?

    大家好 我是阿爬 这里是讲述阿爬和阿三爬虫故事的爬友圈 近期 阿三有一个自动化翻译的小需求 于是找到阿爬 想要一个好的方案 阿爬首先想到的是调用某平台的翻译接口 奈何需要付费 于是心想还是用爬虫技术撸一把吧 于是开始了翻译平台逆向 1 初步
  • unity多个相机实现切换

    做项目的过程中遇到一个问题 有6个相机 需要实现点击按钮切换到某个相机 从网上看了一些文章 有些已经不再用了 比如说enable 做的过程中还遇到了找不到组件的情况 趁晚上有时间记录下这些 核心实现方法 gameobject setActi
  • zabbix性能调优

    zabbix性能调优 服务器环境 centos7 zabbix3 2 mariadb 1 从监控项调整 1 关掉没必要的监控项 zabbix自带模板里面涉及各种监控项 实际情况并不需要用到所有的 可以根据自带模板内容自己创建模板 也可以将模
  • ssm+java计算机毕业设计煤矿安全管理信息系统iz40r(程序+lw+源码+远程部署)

    项目运行 项目含有源码 见文末 文档 程序 数据库 配套开发软件 软件安装教程 环境配置 Jdk1 8 Tomcat7 0 Mysql HBuilderX Webstorm也行 Eclispe IntelliJ IDEA Eclispe M

随机推荐

  • node运行报错Error: ER_NOT_SUPPORTED_AUTH_MODE: Client does not support authentication protocol requested

    node在连接mysql中报错解决 原因 登录数据库的客户端跟mysql8 0不兼容了 mysql8 0密码认证采用了新的密码格式 简单来说就是mysql版本问题 报错信息 mysql模块可以使我们在js中写mysql语句 操作mysql
  • RunTime.getRunTime().addShutdownHook的用法

    RunTime getRunTime addShutdownHook的用法 常识的Blog的博客 CSDN博客
  • 图的五种最短路径算法

    本文总结了图的几种最短路径算法的实现 深度或广度优先搜索算法 费罗伊德算法 迪杰斯特拉算法 Bellman Ford 算法 1 深度或广度优先搜索算法 解决单源最短路径 从起点开始访问所有深度遍历路径或广度优先路径 则到达终点节点的路径有多
  • VLC 不能识别带空格的URL

    转自 http blog csdn net pizicai105 article details 5414944 7 VLC无法识别URL带空格 需要进行转义 转义符为 2B 空格 转义符为 或 20 转义符为 2F 转义符为 3F 转义符
  • Regular Expressions --正则表达式官方教程

    http docs oracle com javase tutorial essential regex index html This lesson explains how to use the java util regex API
  • (11)DataFrame索引和切片

    内容 访问 对列进行访问 对行进行访问 对元素进行访问 切片 import numpy as np import pandas as pd from pandas import Series DataFrame arr np random
  • HikariPool连接池的使用

    HikariDataSource datasource new HikariDataSource xxxx Connection cn datasource getConnection try cn doXXX finnally conne
  • 三、ElasticSerach-映射操作

    上一章学习了Es的文档操作 ElasticSerach 文档操作 本章我们来学习索引中映射的操作 1 创建映射 可以在创建索引的时候就创建 可以参考一 ElsaticSerach 索引操作 创建索引的时候没有添加映射 可以后面添加 创建索引
  • 牛客网-网易2018笔试第7题 -合唱(DP问题)

    题目描述 小Q和牛博士合唱一首歌曲 这首歌曲由n个音调组成 每个音调由一个正整数表示 对于每个音调要么由小Q演唱要么由牛博士演唱 对于一系列音调演唱的难度等于所有相邻音调变化幅度之和 例如一个音调序列是8 8 13 12 那么它的难度等于
  • gganimate:构建R语言可视化gif动图

    gganimate简介 gganimate是一款基于ggplot2的动态可视化扩展包 简单就是将ggplot2绘图对象转为gif动图的形式 这对于一些统计分析原理和可视化展示尤为重要 可以让抽象的数理理论更加形象化 也便于理解和方便课堂教学
  • 什么是SSC(时钟扩频),为什么要时钟扩频

    SSC全称Spread Spectrum Clocking 即扩频时钟 由于信号的辐射主要是由于信号的能量过于集中在其载波频率位置 导致信号的能量在某一频点位置处的产生过大的辐射发射 因此为了进一步有效的降低EMI辐射 芯片厂家在设计芯片时
  • Vijava 学习笔记之VirtualMachine(基础配置信息{VirtualMachineConfigSummary})

    Vijava 代码 package com vmware client import com vmware util Session import com vmware vim25 VirtualMachineConfigSummary i
  • Docker搭建kafka集群

    Docker搭建kafka集群 集群规划 镜像版本 kafka为什么需要依赖zookeeper 创建docker网络 搭建zk集群 新建文件docker compose zk yml 启动 搭建kafka集群 新建三个挂载文件 挂载原因 挂
  • TIA博途S7-1200学习笔记——数据类型

    目录 一 概述 二 基本数据类型 1 二进制数 1 1 BOOL 位 1 2 BYTE 1 3 WORD 1 4 DWORD 1 5 LWORD 2 整数 2 1 SINT 2 2 USINT 2 3 INT 2 4 UINT 2 5 DI
  • 注解@TableName、@TableField

    目录 TableName value 当数据库名与实体类名不一致或不符合驼峰命名时 需要在此注解指定表名 不加这个注解默认将实体类的小写形式在db中寻找 TableField 字段注解 该注解用于标识非主键的字段 将数据库列与 JavaBe
  • 幂函数与指数函数的区别

    a表示底数 n表示指数 a n叫做幂 幂就是一个数和它自己相乘的积 二个乘是二次幂 三个乘是三次幂 四个乘是四次幂 象三 五这样的幂是奇次幂 二 四是偶次幂负数乘负数是正数 负数乘正数是负 幂函数与指数函数的区别 指数函数 自变量 x 在指
  • 关于欧拉角的问题

    一 简单介绍 自己主要做一个知识记录 想着学了还是要写点东西的 首先我们可以把欧拉角看成是描述方位的一种方法 我们可以用欧拉角来表示旋转 也可以用四元数 以及用矩阵来表示旋转 欧拉角是一种常用的描述方位的方法 在这里简单的介绍下方向和方位的
  • 阿里巴巴“三板斧”管理到底是什么?

    阿里巴巴从最初的以马老师为首的18罗汉创始员工 发展至今拥有4万员工 从杭州的湖畔花园起家 到去美国纽约证券交易所上市敲钟 阿里巴巴如何走到现在 它背后的管理机制是怎样的 我们到底向它学什么 阿里巴巴管理总纲 阿里巴巴九板斧 中层能力三板斧
  • 哈希表与树的介绍

    前言 该篇文章 主要带我们认识什么哈希表和树 为我们在研究各个数据结构的实现及扩展算法 有个基本的认识 哈希表 特点 数组 寻址容易 数据连续存储空间 链表 插入与删除容易 放在堆内存中对象 存储并不连续 哈希表 寻址容易 插入删除也容易的
  • 多模态机器翻译

    摘录自 机器翻译 基础与模型 东北大学 文章目录 1 背景 2 机器翻译需要更多的上下文 3 图像翻译 4 基于图像增强的文本翻译 4 1 基于特征融合的方法 4 2 基于联合模型的方法 5 参考文献 1 背景 基于上下文的翻译是机器翻译的