论文阅读笔记-A Comparative Study on Transformer vs RNN in Speech Applications

news/2024/10/4 14:28:51 标签: python

前言

介绍

序列到序列模型已广泛用于端到端语音处理中,例如自动语音识别(ASR),语音翻译(ST)和文本到语音(TTS)。本文着重介绍把Transformer应用在语音领域上并与RNN进行对比。与传统的基于RNN的模型相比,将Transformer应用于语音的主要困难之一是,它需要更复杂的配置(例如优化器,网络结构,数据增强)。在语音应用实验中,论文研究了基于Transformer和RNN的系统的几个方面,例如,根据所有标注数据、训练曲线和多个GPU的可伸缩性来计算单词/字符/回归错误。本文的几个主要贡献:

  • 将Transformer和RNN进行了大规模的比较研究,尤其是在ASR相关任务方面,它们具有显着的性能提升。
  • 提供了针对语音应用的Transformer的训练技巧:包括ASR,TTS和ST
  • 在开放源代码工具包ESPnet中提供了可复制的端到端配置和模型,这些配置和模型已在大量可公开获得的数据集中进行了预训练。

端到端RNN

如下图中,说明了实验用于ASR,TTS和ST任务的通用S2S结构。
在这里插入图片描述
S2S包含两个神经网络:其中编码器如下:
( 1 ) : X 0 = E n c P r e ( X ) (1):X_0=EncPre(X) (1):X0=EncPre(X) ( 2 ) : X e = E n c B o d y ( X 0 ) (2):X_e=EncBody(X_0) (2):Xe=EncBody(X0)
解码器如下:
( 3 ) : Y 0 [ 1 : t − 1 ] = D e c P r e ( Y [ 1 : t − 1 ] ) (3):Y_0[1:t-1]=DecPre(Y[1:t-1]) (3):Y0[1:t1]=DecPre(Y[1:t1]) ( 4 ) : Y d [ t ] = D e c B o d y ( X e , Y 0 [ 1 : t − 1 ] ) (4):Y_d[t]=DecBody(X_e,Y_0[1:t-1]) (4):Yd[t]=DecBody(Xe,Y0[1:t1]) ( 5 ) : Y p o s t [ 1 : t ] = D e c P o s t ( Y d [ 1 : t ] ) (5):Y_{post}[1:t]=DecPost(Y_d[1:t]) (5):Ypost[1:t]=DecPost(Yd[1:t])

其中 X X X 是源序列,例如,语音特征序列(对于ASR和ST)或字符序列(对于TTS), e e e 是EncBody层数, d d d 是DecBody中的层数, t t t 是目标帧索引,以上等式中的所有方法均由神经网络实现。对于解码器输入 Y [ 1 : t − 1 ] Y [1:t − 1] Y[1t1],我们在训练阶段使用一个真实标注的前缀,而在解码阶段使用一个生成的前缀。在训练过程中,S2S模型学习是将在生成的序列 Y p o s t Y_{post} Ypost 和目标序列 Y Y Y 之间标量损失值最小化:
( 6 ) : L = L o s s ( Y p o s t , Y ) (6):L=Loss(Y_{post},Y) (6):L=Loss(Ypost,Y)
本节的其余部分描述了基于RNN的通用模块:“EncBody”和“DecBody”。而将“EncPre”,“DecPre”,“DecPost”和“Loss”视为特定于任务的模块,我们将在后面的部分中介绍。

等式(2)中的EncBody将源序列 X 0 X_0 X0 转换为中间序列 X e X_e Xe,现有的基于RNN的EncBody实现通常采用双向长短记忆(BLSTM)。对于ASR,编码序列 X e X_e Xe 还可以在进行联合训练和解码中,用基于神经网络的时序类分类(CTC)进行逐帧预测。

等式(4)中的DecBody()将生成具有编码序列 X e X_e Xe 和目标前缀 Y 0 [ 1 : t − 1 ] Y_0 [1:t − 1] Y0[1t1] 的前缀的下一个目标帧。对于序列生成,解码器通常是单向的。 例如,具有注意力机制的单向LSTM通常用于基于RNN的DecBody()实现中。该注意力机制计算逐帧权重,以将编码后的帧 X e X_e Xe 求和,并作为要以前缀 Y 0 [ 0 : t − 1 ] Y0 [0:t-1] Y0[0t1] 进行转换的逐帧目标向量,我们称这种注意为“encoder-decoder attention”

Transformer

Transformer包含多个dot-attention层:
( 7 ) : a t t ( X q , X k , X v ) = s o f t m a x ( X q X k T d a t t ) X v (7):att(X^q,X^k,X^v)=softmax(\frac{X^qX^{kT}}{\sqrt{d^{att}}})X^v (7):att(Xq,Xk,Xv)=softmax(datt XqXkT)Xv
其中 X k , X v ∈ R n k × d a t t X^k,X^v\in \mathbb{R}^{n^k\times d^{att}} Xk,Xv<


http://www.niftyadmin.cn/n/5690027.html

相关文章

如何对物理系统进行数学建模?

一、关键因素和步骤 对某一物理系统建模时&#xff0c;需要考虑以下关键因素和步骤&#xff1a; 系统定义与理解&#xff1a; 清晰定义系统边界和组成部分&#xff0c;理解系统的功能、结构和动力学特性。 分析系统输入、输出及其相互作用&#xff0c;确定系统的动态变量。 建…

Django学习笔记八:发布RESTful API

在Django中发布RESTful API通常使用Django REST Framework&#xff08;DRF&#xff09;&#xff0c;这是一个强大的、灵活的工具&#xff0c;用于构建Web API。以下是发布RESTful API的基本步骤&#xff1a; 1. 安装Django REST Framework 首先&#xff0c;确保你已经安装了D…

文章解读与仿真程序复现思路——电力自动化设备EI\CSCD\北大核心《计及效率和启停特性的大规模...电制氢多电解槽切换调度策略》

本专栏栏目提供文章与程序复现思路&#xff0c;具体已有的论文与论文源程序可翻阅本博主免费的专栏栏目《论文与完整程序》 论文与完整源程序_电网论文源程序的博客-CSDN博客https://blog.csdn.net/liang674027206/category_12531414.html 电网论文源程序-CSDN博客电网论文源…

【大数据】Elasticsearch 实战应用总结

目录 1. 什么是 Elasticsearch2. Elasticsearch 的核心概念2.1 安装与配置1. 安装 Elasticsearch2. 配置 2.2 基本操作1. 创建索引2. 索引文档3. 查询文档 3. 实战案例3.1 案例&#xff1a;日志管理系统3.2 数据流示意图 4. 注意事项与优化建议总结 1. 什么是 Elasticsearch E…

使用 Python 实现图形学的着色器编程算法

目录 使用 Python 实现图形学的着色器编程算法引言1. 着色器编程概述1.1 定义1.2 着色器的工作原理1.3 着色器的优势 2. Python 中的着色器编程2.1 安装 PyOpenGL2.2 基础类着色器类顶点数据类渲染器类 2.3 示例程序 3. 着色器编程的优缺点3.1 优点3.2 缺点 4. 改进方向5. 应用…

SAP HCM 自定义累计期间

需求是按3月&#xff5e;8月&#xff0c;9月&#xff5e;次年2月&#xff0c;做为累计期间&#xff0c;怎么处理&#xff1f;

工程师 - Github文件访问加速

如果是下载单独的又比较大的Github上的文件&#xff0c;网速较差时&#xff0c;可以使用镜像网站&#xff0c;比如下面这个工具。 GitHub 文件加速 - Sonder (akams.cn) GitHub 文件加速 - Sonder 另外&#xff0c;也可以在搜索引擎里直接搜索“Github 文件加速”&#xff0c;…

SQL Inject-基于报错的信息获取

常用的用来报错的函数 updatexml() : 函数是MYSQL对XML文档数据进行查询和修改的XPATH函数。 extractvalue(): 函数也是MYSQL对XML文档数据进行查询的XPATH函数。 floor(): MYSQL中用来取整的函数。 思路&#xff1a; 在MySQL中使用一些指定的函数来制造报错&am…