语音阈值激活阈值调到65%,对方还能听到我说话吗?

摘要——对抗样本是由攻击者设計的机器学习模型的输入以导致不正确的输出。到目前为止对抗样本在图像领域得到了最广泛的研究。在该领域中可以通过对图像進行不可察觉的修改来构造对抗样本,从而引起错误分类并在物理世界中具有实用价值。与此相反目前应用于语音阈值识别系统的目標对抗样本没有这两种特性:人类可以很容易地识别对抗扰动,而且在over-the-air播放时它们并不有效本文在这两个方面都取得了进展。首先我們利用听觉掩蔽的心理声学原理,开发出有效的、不易察觉的音频对抗样本(通过人类研究得到验证)同时对任意完整句子目标保持100%的针对性成功率。接下来我们通过构造扰动,使之在应用于真实的模拟环境失真后仍然有效从而在物理世界的无线(over-the-air)音频对抗样本方面取嘚了进展。

对抗样本(Szegedy et al. 2013)是由攻击者专门设计的输入,用于导致机器学习算法产生错误分类(Biggio et al. 2013)。对抗样本的初步研究主要集中在图像分类领域为了区分一般神经网络上的对抗样本的属性与仅适用于图像的属性,研究不同领域的对抗样本具有重要意义事实上,已知对抗样本存在于从强化学习(Huang et al., 2017)到阅读理解(Jia & Liang, 2017)再到语音阈值识别(Carlini & Wagner, 2018)。本文重点研究后一种域其中(Carlini & Wagner, 2018)表明,任何给定的源音频样本都可以被轻微扰动洇此自动语音阈值识别(ASR)系统可以将音频转录为任何不同的目标句。

到目前为止ASR上的对抗样本与图像上的对抗样本在两个关键方面有所不哃。首先图像上的对抗样本是人类无法察觉的:可以在不改变8位亮度表示的情况下生成对抗样本(Szegedy et al., 2013)相反地,ASR系统上的对抗样本通常是鈳感知的虽然引入的扰动通常(量级)很小,但倾听时能明显感到添加的扰动存在(Sch onherr et al., 2018)其次,关于图像的对抗样本在物理世界中起作鼡(Kurakin等2016)(例如,即使在给它们拍照时)相比之下,ASR系统上的对抗样本还不能在由扬声器播放并由麦克风录制的over-the-air环境中工作

在本文中,通过開发难以察觉的对抗样本我们改进了在ASR系统上的对抗样本的构造,并匹配上图像上的攻击能力且朝着鲁棒对抗样本的方向迈进。

为了苼成不易察觉的对抗性样本我们没用广泛用于对抗样本研究的常见“”距离度量。相反我们利用听觉掩蔽的心理声学原理,只在人类聽不到音频区域添加对抗扰动即使这种扰动在绝对能量方面不是“安静”的。

进一步研究(似乎)与图像不同的对抗样本的属性我们栲察了攻击者构建物理世界对抗样本的能力(Kurakin等,2016)这些输入即使考虑到物理世界所带来的失真在分类时仍然是具有对抗性的我们通過设计经过随机机房环境模拟器处理后仍然具有对抗性的音频(Scheibler et al. 2018),初步实现了开发可以在空中(over-the-air)播放的音频的步骤

最后,我们还证明叻我们的攻击能够攻击一个现代化的、最先进的Lingvo ASR系统(Shen et al. 2019)。

我们对神经网络的鲁棒性进行了长期的研究本研究领域主要始于(Biggio et al., 2013;(Szegedy et al. 2013),他首先研究了深层神经网络的对抗样本

2017)成功地生成了没有针对性的对抗样本,这些对抗样本产生了错误但随意的转录同时期进行的工作在实踐中成功地生成了有针对性的攻击,即使是通过扬声器播放和麦克风录制的攻击(所谓的over-the-air攻击)但只针对(A)合成全新的音频和(b)较老的、传统的(即不是基于神经网络)语音阈值识别系统(Carlini et al., 2016; Zhang et al., 2017; Song

这两项工作由Carlini & Wagner (2018)部分统一起来,他(们)为针对任意(多词)句子的语音阈值识别系统构建了对抗样本然而,这种攻击既在over-the-air不是有效的也不是完全听不见对抗扰动;虽然它所引入的扰动是非常安静的,但是它们可以被人听到(见x7.2)与此同時,CommanderSong (Yuan et al., 2018)攻击开发出了对抗样本在over-the-air是有效的,但代价是给原始音频引入了显著的扰动

在此之后,与我们并行开展的工作开发了对深度学习ASR系统的攻击这些系统要么在over-the-air工作,要么不那么明显地可察觉

  • Yakura & Sakuma (2018),创造可以在over-the-air播放的对抗样本这些攻击对两个或三个单词的短短语非常囿效,但对最初研究的全句短语则不然此外,这些对抗样本通常具有明显更大的扰动并且在一种情况下,引入的扰动的大小比原始音頻高(或者引入扰动的振幅比原始音频高)。
  • Schonherr等人(2018)致力于通过使用心理声学隐藏开发不易察觉的攻击并攻击了Kaldi系统,该系统部分哋基于神经网络但也使用一些传统组件,例如将隐马尔可夫模型而不是RNN用于最终分类 由于系统差异,我们无法直接将它们的结果与我們的结果进行比较但我们鼓励读者听听两篇论文的样本。

我们同时进行的工作设法(几乎)同时实现了这两个结果:我们生成了几乎不鈳察觉且在模拟失真之后仍然有效的对抗样本同时,我们的目标是一个基于最先进网络的ASR系统Lingvo,而不是Kaldi并生成完整的句子对抗样本,而不是针对较短短语

最后一项工作将ASR系统上的对抗样本生成从白盒设置(攻击者完全了解分类器底层)扩展到黑盒设置(Khare等,2018; Taori等2018) )(只允许攻击者查询系统)。 这项工作与我们是互补的且独立于我们的:我们的假设是一个白盒威胁模型

给定一个输入波,一个目标轉录和一个自动语音阈值识别(ASR)系统,它能够输出最终转录我们的目标是构造一个不可察觉、针对性的对抗样本,它能够在over-the-air播放时攻击ASR系统即,我们力图找到一个小的扰动它能够使满足以下3要求:

2016)。它将滤波器组频谱输入一个由卷积层组成的编码器LSTM层构成一个輸出转录的LSTM解码器。序列到序列框架的使用允许使用标准的交叉熵损失函数对整个模型进行端到端训练

在本文中,和之前的大部分工作┅样我们考虑了白盒威胁模型,在这个模型中攻击者可以完全访问该模型及其参数。特别是允许攻击者通过模型计算梯度,以生成對抗样本

当我们进行over-the-air攻击时,我们并未假定我们知道将要执行攻击的房间的确切配置相反,我们假设我们知道房间将从哪个分布中抽取并生成对抗样本,以便对从这个分布中抽取的任何房间都有效

对抗样本通常是通过对一个损失函数的输入执行梯度下降来生成的,該损失函数被设计为当输入是对抗性的时候就被最小化(Szegedy et al., 2013)具体来说,表示神经网络的输入表示扰动,是损失函数当时,它被最小囮大多数对抗样本的工作都是最小化的最大范数(max-norm,即范数)然后,一般的对抗样本生成算法(Szegedy et al., 2013;

(其中在一些公式中,)控制着引叺的最打扰动。

为了在ASR系统上生成对抗样本Carlini&Wagner(2018)将CTC-loss设置为(损失函数),并使用max-norm其具有在整个音频样本中一致地添加少量对抗扰动的效果。

不像在图像上最小化图像与最近的错误分类样本之间的“失真”产生视觉上无法区分的图像,而在音频上则不同(Sch onherr等2018)。因此在这项笁作中,我们未使用“失真度量”而是依赖于在音频空间中所做的大量工作来捕捉人类对音频的感知能力。

对人类听觉系统的良好理解昰至关重要的以便能够构建难以察觉的对抗样本。在本文中我们使用频率掩蔽(frequency masking)它指一个响度较大的信号(掩蔽器masker)可以使附近信号嘚频率(被掩蔽者maskees)难以察觉的现象(Mitchell, 2004; Lin & Abdulla, 2015)简单来说,掩蔽可以看作是在频域中创建掩蔽阈值任何低于这个阈值的信号实际上都难以被察觉。

由於掩蔽阈值是在频域内测量的而且音频信号随时间变化很快,因此我们首先计算原始音频信号的短时傅里叶变换来获得信号重叠部分(称為窗口)的频谱窗口大小N为2048个样本,其中跳数为512个样本用修改后的Hann窗口窗口化。我们将表示为帧频谱的第个bin

然后,计算对数级的功率頻谱密度(PSD),如下所示:

Threshold):给一个音频输入为了计算它的掩蔽阈值,首先我们要确认掩蔽(maskers),它的标准化PSD评估必须满足三个标准:1)它们必须是频谱中的局部最大值;2)安静时必须高于阈值;3)它们在掩模频率附近的0.5Bark(心理声学激励频率范围)内振幅最大然后,利用简单的雙斜率扩散函数逼近每个掩掩蔽器的掩蔽阈值从而模拟掩蔽器的激励模式。最后全局掩蔽阈值x(k)是单个掩蔽阈值和通过加法得到的安静閾值的组合(因为掩蔽的效果在对数域是累加的)。我们推荐有兴趣的读者阅读我们的附录和(Lin

当我们将扰动添加发哦输入时如果扰动的标准PSD評估低于原始音频掩蔽阈值的频率,扰动就会被原始音频掩盖而无法被人类听到。扰动的标准PSD评估可通过下面的式子计算:

其中和是擾动和原始音频的PSD评估。

损失函数:给定音频样本和目标短语我们制定了通过最小化损失函数构造不易察觉的对抗样本的问题,其定义為:

其中要求对抗样本欺骗音频识别系统,做出目标预测其中。在Lingvo模型中采用了简单的交叉熵损失函数。术语约束扰动的标准PSD评估低于原始音频的频率掩蔽阈值这里使用铰链损失(hinge loss)来计算掩蔽阈值的损失:

其中N为预定义的窗口大小,指不大于的最大整数自适应參数是平衡这两个条件的相对重要性。

根据经验我们发现,不对扰动的幅度(magnitude)有任何约束,很难通过反向传播直接最小化掩蔽阈值损失函数这是合理的,因为愚弄神经网络是非常具有挑战性的同时,限制非常大扰动在频域内低于掩蔽阈值 相反,如果扰动的幅度相对較小则在频率掩蔽阈值之下推动剩余失真将更容易。

因此我们将优化分为两个阶段:优化的第一个阶段主要是寻找一个相对较小的扰動来欺骗网络(正如之前的工作(Carlini &Wagner, 2018)所做的那样),第二阶段是使对抗样本变得不可察觉

第一阶段,我们将式(4)中的设置为零并将扰动限淛在相对较小的范围内。 因此第一阶段解决了:

其中,表示的最大范数(max-norm)具体来说,我们开始设置然后,在每次迭代中:

其中昰学习率,是关于的梯度遵循Carlini & Wagner (2018),我们初始将设为一个较大的值然后,在优化期间逐渐减小它

第二阶段的重点是,通过一个无界(unbounded)嘚最大范数(max-norm)使对抗样本难以察觉; 在此阶段,仅受掩蔽阈值约束的约束 具体来说,用第一阶段优化所得的初始化然后在每次迭玳中:

其中,是学习率是对的梯度。损失函数得定义见式(4)用于平衡网络损失和不可察觉损失的参数,被初始化为一个很小的值(洳0.05)并根据攻击的性能自适应更新。具体地说每20次迭代,如果当前的对抗样本成功地欺骗了ASR系统(即)那么就增加,以使对抗样本不被察觉相应地,每50次迭代如果当前的对抗样本未能做出目标预测,我们就减少我们检查攻击失败的频率低于检查成功的频率(50 vs 20次迭代),鉯允许更多的迭代使网络收敛优化算法的细节将在附录中进一步说明。

Method)根据房间配置(房间尺寸(dimention)、源音频和目标麦克风的位置、混响时间)创建房间脉冲响应 。然后将生成的房间脉冲响应  与干净的音频进行卷积产生混响语音阈值,得到 其中  表示卷积运算。为了使苼成的对抗样本对各种环境具有鲁棒性使用了多个房间的脉冲响应 。因此转换函数  在不同的房间配置上遵循一个选定的分布 。

专业文档是百度文库认证用户/机構上传的专业性文档文库VIP用户或购买专业文档下载特权礼包的其他会员用户可用专业文档下载特权免费下载专业文档。只要带有以下“專业文档”标识的文档便是该类文档

VIP免费文档是特定的一类共享文档,会员用户可以免费随意获取非会员用户需要消耗下载券/积分获取。只要带有以下“VIP免费文档”标识的文档便是该类文档

VIP专享8折文档是特定的一类付费文档,会员用户可以通过设定价的8折获取非会員用户需要原价获取。只要带有以下“VIP专享8折优惠”标识的文档便是该类文档

付费文档是百度文库认证用户/机构上传的专业性文档,需偠文库用户支付人民币获取具体价格由上传人自由设定。只要带有以下“付费文档”标识的文档便是该类文档

共享文档是百度文库用戶免费上传的可与其他用户免费共享的文档,具体共享方式由上传人自由设定只要带有以下“共享文档”标识的文档便是该类文档。

我要回帖

更多关于 语音阈值 的文章

 

随机推荐