【文献阅读】AST: Audio Spectrogram Transformer

Abstract

在过去的十年中，CNN被广泛应用作为端到端音频分类模型的主要构建块，这些模型旨在学习从音频谱图到相应标签的直接映射。为了更好地捕捉长距离的全局上下文，最近的趋势是在 CNN 之上添加自注意力机制，从而形成 CNN-注意力混合模型。然而，目前尚不清楚依赖 CNN 是否是必要的，以及仅基于注意力的神经网络是否足以在音频分类中获得良好的性能。在本文中，我们通过引入Audio Spectrogram Transformer（AST）来回答这一问题，AST 是首个不使用卷积、完全基于注意力的音频分类模型。我们在各种音频分类基准上评估 AST，结果在 AudioSet 上取得了 0.485 的 mAP、在 ESC-50 上达到 95.6% 的准确率，以及在 Speech Commands V2 上达到 98.1% 的准确率，均创下了新的最先进结果。

Introduction

在过去的十年中，CNN被广泛用于从原始谱图中学习表征，直接将音频谱图映射到相应的标签，以进行端到端建模，因为 CNN 固有的归纳偏差（例如空间局部性和平移不变性）被认为是有帮助的。为了更好地捕捉长距离的全局上下文，最近的趋势是在 CNN 之上添加自注意力机制。然而，受到纯基于注意力模型在视觉领域成功的启发，目前的问题是 CNN 是否仍然对音频分类至关重要。

为此引入Audio Spectrogram Transformer（AST），这是一个不使用卷积、完全基于注意力的模型，能够直接应用于音频谱图，并在最低层中捕捉长距离的全局上下文。此外，还提出了一种将 Vision Transformer（ViT）从在 ImageNet 上预训练的知识转移到 AST 的方法，这可以显著提高性能。

AST 的优势有三点：

在多种音频分类任务和数据集（包括 AudioSet、ESC-50 和 Speech Commands）上评估 AST，结果在这些数据集上均超越了最先进的系统。
AST 支持变长输入，并且可以在不改变架构的情况下应用于不同任务。相比之下，基于 CNN 的模型通常需要调整架构，以获得不同任务的最佳性能。
与最先进的 CNN-注意力混合模型相比，AST 具有更简单的架构和更少的参数，并且在训练过程中收敛更快。

AST 和 ViT 的架构相似，但 ViT 仅应用于固定维度的输入（图像），而 AST 可以处理变长的音频输入。此外，本文提出了一种将在 ImageNet 上预训练的 ViT 知识转移到 AST 的方法。

Audio Spectrogram Transformer

在这里插入图片描述

首先，将 t 秒的输入音频波形转换为128维的对数梅尔滤波器组（log Mel filterbank, fbank）特征，这些特征每10毫秒（1秒有100帧）使用25毫秒的Hamming窗计算一次。这样就得到一个大小为 128×100t 的谱图，作为 AST的输入。接着，将该谱图分割成N个16×16的patch，在时间和频率维度上均有6的重叠，其中N = 12d(100t − 16)/10e 是patch的数量，也是Transformer的有效输入序列长度。我们使用线性投影层将每个16×16的patch展平为大小为768的一维patch嵌入层。我们将该线性投影层称为patch嵌入层。由于Transformer架构不能捕捉输入顺序信息，而patch序列也不按时间顺序排列，因此我们为每个patch嵌入添加一个可训练的位置嵌入（同样大小为768），以使模型能够捕捉2D音频谱图的空间结构。在序列的开头添加了一个 [CLS] token。生成的序列随后输入到Transformer中。Transformer编码器具有768的嵌入维度、12层和12个头。Transformer编码器的[CLS] token输出作为音频谱图的表征。一个带有sigmoid激活函数的线性层将音频谱图表征映射到用于分类的标签。严格来说，patch嵌入层可以被视为一个大核和大步长的单个卷积层，而Transformer块中的投影层相当于1×1卷积。然而，这种设计不同于常规的CNN，其有多个层和较小的核与步长。这些Transformer模型通常被称为“无卷积模型”，以区分它们与CNN

![在这里插入图片描述](https://i-blog.csdnimg.cn/direct/caeb208883da4148926de613c5ecd3fb.png