Abstract
将命令嵌入到歌曲中,使其既能在实际环境中被ASR模型有效识别,又能不被人类感知。而且,这种攻击不仅是可行、实际的,而且还能自动构建。
提出了CommanderSong,是一个将命令语音注入到歌曲中,通过播放歌曲从而使现实生活中的ASR系统识别并执行目标指令的方法,在Kaldi上WTA攻击可以达到100%的成功率,WAA攻击可以达到96%的成功率;同时,具备良好的可移植性,在科大讯飞、微信、新浪微博等等用户数量众多的ASR系统中均能有效攻击;可以通过网络广泛传播(YouTube),效率高、效果好。
研究涉及的3个问题
1.是否有可能对ASR系统进行实际的对抗性攻击?尤其是在非常复杂的物理环境中工作,例如来自扬声器的电子噪声、背景噪声等。----提出pdf-id序列匹配算法
2.生成的对抗样本是否是不易被人感知的?---- 添加一般性的噪声
3.是否可以自动传播从而扩大影响范围?而不仅仅依赖于攻击者的播放?
Attack algorithm:pdf-id matching algorithm
总的策略是,首先定位决定最终结果的information(output的子集),通过修改music的output,使其包含command,然后再将其做特征提取和声学模型的逆变换,得到相应的input,即为对抗样本。(反向训练)
WTA:
,其中。
WAA:
,
。
n(t)是随机噪声。
Evaluation:
WTA & WAA(Kaldi);
歌曲中隐藏的命令的效果;
可移植性(其他ASR平台);
生成的时间效率。
Dataset
26各种类型的歌曲 + 12个常见命令
Experiment Results
1.Effectiveness
WTA
直接将歌曲输入到系统
12个命令分别注入到26首歌中,输入到Kaldi,能成功检测出命令就成功。
Table 2:100%成功率;信噪比14~18.6db,扰动很轻微,难以察觉。
WAA
3种扬声器在会议室分别播放,用iphone 6s 录制并传给Kaldi
两个命令,播放后录制传给Kaldi。
Table 3:JBL成功率最高,音质最好;但是SNR均为2db以下,说明随机噪声较大。需要测试人类是否能感知(Table 4)。
人类感知测试
204人、26个对抗性歌曲(20s,中间4、5s的命令),给出no,
not sure,noisy和words different from lyrics四个选项。
WTA:(Table 4)Soft表现最好(但是否也有听得少的原因?);没有任何命令被听出来。
WAA:(Table 5)40%左右的人认为噪声来自扬声器,仅有2.2%认为是来自样本本身,不到1%的人认为有部分单词不是原本歌曲里的歌词。但是没有人能成功地识别出任何一个命令单词。
2.可移植性
CommanderSong是否能攻击其他ASR系统
科大讯飞
测试WAA(黑盒)
iFLYREC:直接输入WAA语音文件;iFLYTEK Input:播放
Airplane mode on成功率较低,另外两个100%,总体还可以。(或许可以扩展?)
DeepSpeech
开源端到端ASR系统。
WAA & WTA全部失败,不能被DeepSpeech成功解码。
Carlini等人曾经攻击DeepSpeech成功,因此利用他们的方法对生成的对抗歌曲进行修改直至能被DeepSpeech成功识别,再攻击Kaldi,WTA成功。无法实施WAA。
3.Automated Spreading(WAA)
Online sharing:上传到YouTube,连接到扬声器播放,iFLYTEK Input接收,最远距离0.5m。成功解码。
Radio broadcasting:用HackPF One模拟radio,“open the door”可以成功攻击。
4.Efficiency
命令语句的帧长度与注入用时的比值。
Table 2 &Table 3:大部分用时少于2小时;一些简单命令“echo open the door”不到半小时;对于“GPS”和“airplane”用时较长,猜测是由于Kaldi不常用,训练不到位;对于rock music,用时一般会更久,由于不稳定的节奏。
Understanding the attacks
1.歌曲是如何帮助攻击的?
歌曲和纯粹的扰动共同构成了目标命令的音素(phoneme)。
2.噪声对对抗样本的影响?
使用不同大小的噪声构造CommanderSong,然后使用Spearman’s rank correlation coefficient来分别衡量CommanderSong和原始音乐、纯粹的命令音频之间的差异性及攻击成功率。
随着SNR的增大(噪声减少),成功率降低;
随着SNR的增大(噪声减少),与原始音乐的相似度也越高;
SNR=4dB是一个比较好的值。
Defends
1.Audio turbulence
对input添加turbulence noise,command为“open the door”。
SNR = AI/An,AI是原始音频,An是turbulence噪音。当SNR减少的时候,WTA成功率显著下降,当SNR=15dB时,WTA几乎完全失败。而WAA面对turbulence时鲁棒性高,可能是因为有随机噪声存在。
2.Audio squeezing
即降低输入音频的采样率。
M代表原始音频的采样率是测试音频的M倍。
Conclusion
提出了CommanderSong,是一个将命令语音注入到歌曲中,通过播放歌曲从而使现实生活中的ASR系统识别并执行目标指令的方法,在Kaldi上WTA攻击可以达到100%的成功率,WAA攻击可以达到96%的成功率;同时,具备良好的可移植性,在科大讯飞、微信、新浪微博等等用户数量众多的ASR系统中均能有效攻击;可以通过网络广泛传播(YouTube),效率高、效果好。
文章出处:CommanderSong: A Systematic Approach for Practical Adversarial Voice Recognition