论文——基于自注意力的虚假跨度发现的部分虚假音频检测

PARTIALLY FAKE AUDIO DETECTION BY SELF-ATTENTION-BASED FAKE SPAN DISCOVERY

摘要：

在过去的几年里，语音合成和语音转换技术取得了显著的进步。然而，这些技术可能会破坏广泛实施的生物特征识别模型的鲁棒性，并可能被野外攻击者用于非法使用。ASVspoof的挑战主要集中在通过高级语音合成和语音转换模型合成的音频，以及重放攻击。最近，第一个音频深度合成检测挑战( ADD 2022 )将攻击场景扩展到了更多的方面。此外，ADD 2022 是第一个提出部分伪造音频检测任务的挑战。这种全新的攻击是危险的，如何应对此类攻击仍然是一个悬而未决的问题。因此，我们提出了一种新的框架，通过引入具有自我注意机制的问答（假跨度发现）策略来检测部分假音频。所提出的假跨度检测模块的任务是反欺骗模型预测部分假音频中假剪辑的开始和结束位置，解决模型的注意力，以发现假跨度而不是其他泛化程度较低的快捷方式，最后为模型提供真实和部分假音频之间的区分能力。我们提交的作品在 ADD 2022 的部分伪造音频检测轨道中排名第二。

结论：

提出了基于自注意力机制和问答策略的伪造片段发现框架，使模型具备区分部分假音频的能力，最终提交模型在比赛中取得良好成绩。

背景：

近年来，语音合成和语音转换技术的进步使得生成的伪造音频越来越难以被人类和自动化系统区分。ASVspoof挑战赛及其扩展任务（如ADD 2022）探索了对伪造音频的检测，而部分伪造音频检测是一个新兴挑战，主要针对在真实语音中插入小段伪造音频的问题。

内容成果：

方法介绍

提出问答式反欺骗模型：以 SENet 为基础模型进行修改，包括特征提取、自注意力层、问答层、池化层和预测层。模型不仅要预测音频的真假标签，还要输出假片段的起始和结束位置，通过问答损失（Lqa）和反欺骗损失（Laf）进行训练。
引入自注意力机制：使模型关注假片段区域，提高对部分假音频的判别能力，实验证明自注意力层显著降低了等错误率（EER）
广告
blur Imageblur ImageMain Image
叫我大掌柜
小游戏模拟经营

玩游戏

模型架构：

使用基于Squeeze-and-Excitation Network（SENet）的模型作为基础框架。
增加自注意力层（Self-Attention Layer）和伪造片段问答层（Question-Answering Layer）。
自注意力层采用Transformer架构，生成每一时间帧的隐藏特征。
问答层通过一个全连接网络输出伪造片段的起点和终点概率。
损失函数：

问答损失 LqaL_{qa}Lqa：基于预测的伪造片段位置和真实标签位置的交叉熵损失。
防伪损失 LafL_{af}Laf：用于判断音频整体真实性的二分类损失。
最终损失： L=Lqa+LafL = L_{qa} + L_{af}L=Lqa+Laf。
输入特征：

主要采用基于短时傅里叶变换（STFT）的Mel频谱图（MSTFT）特征，结合不同窗口大小（384到768）。
还使用了其他特征（如MFCC、LFCC）进行补充实验。
数据增强：

噪声添加（使用MUSAN数据集）。
房间脉冲响应模拟（RIR）。
编解码算法（如a-law和µ-law）。
数据准备

数据集构建：训练集和开发集基于 AISHELL – 3 语料库，通过插入假音频片段构建部分假音频，验证集采用 ADD 2022 合成的部分假音频，测试集使用组织者发布的数据集。
输入表示：多数实验采用 Mel – 频谱图（MSTFT），还对倒谱和神经网络特征进行了实验，固定 FFT 窗口大小、跳跃大小和输出箱数。
数据增强：通过添加噪声、模拟房间脉冲响应和应用编解码器算法进行实时数据增强。
实现细节：采用 Adam 优化器，学习率为 0.001，权重衰减为1e**（-4），实验中采用平均池化、注意力统计池化和自注意力池化三种注意力机制。
实验结果与分析

问答策略的有效性：没有问答策略的模型 EER 约为 40%，表明无法区分部分假音频，而采用问答策略的模型 EER 显著降低。
自注意力层的作用：添加自注意力层后，EER 在不同 FFT 窗口大小设置下分别显著降低，证明了其有效性。

其他因素的影响：数据增强通常有助于降低 EER，使用重新合成的数据扩大训练集也有益处，SAP 和 ASP 池化在数据重新合成和增强时显著提高 EER。采用 LFCC
特征训练的模型达到了最佳单模型性能（EER 为 11.1%），通过平均融合 5 个最佳模型，最终提交模型的 EER 为 7.9%，在 ADD 2022 部分假音频检测赛道中排名第二

声明：文中观点不代表本站立场。本文传送门：https://eyangzhen.com/424601.html

论文——基于自注意力的虚假跨度发现的部分虚假音频检测

作者专栏

A校园虚拟空间