CommanderSong: A Systematic Approach for Practical Adversarial Voice Recognition

Abstract

        将命令嵌入到歌曲中,使其既能在实际环境中被ASR模型有效识别,又能不被人类感知。而且,这种攻击不仅是可行、实际的,而且还能自动构建。

        提出了CommanderSong,是一个将命令语音注入到歌曲中,通过播放歌曲从而使现实生活中的ASR系统识别并执行目标指令的方法,在Kaldi上WTA攻击可以达到100%的成功率,WAA攻击可以达到96%的成功率;同时,具备良好的可移植性,在科大讯飞、微信、新浪微博等等用户数量众多的ASR系统中均能有效攻击;可以通过网络广泛传播(YouTube),效率高、效果好。


研究涉及的3个问题

        1.是否有可能对ASR系统进行实际的对抗性攻击?尤其是在非常复杂的物理环境中工作,例如来自扬声器的电子噪声、背景噪声等。----提出pdf-id序列匹配算法

        2.生成的对抗样本是否是不易被人感知的?---- 添加一般性的噪声

        3.是否可以自动传播从而扩大影响范围?而不仅仅依赖于攻击者的播放?


Attack algorithm:pdf-id matching algorithm

        总的策略是,首先定位决定最终结果的information(output的子集),通过修改music的output,使其包含command,然后再将其做特征提取和声学模型的逆变换,得到相应的input,即为对抗样本。(反向训练)

        WTA:

                                                \arg \max\limits_{\delta(t)} ||g(x(t) + \delta(t))-b||_1,其中\delta(t)\leq l

        WAA:

                                                        \arg \max\limits_{\mu (t)} ||g(x(t) + \mu(t)+n(t))-b||_1,

                                                                      n(t)=rand(t), |n(t)|\leq N

                n(t)是随机噪声。

Attack Algorithm


Evaluation

        WTA & WAA(Kaldi);

        歌曲中隐藏的命令的效果;

        可移植性(其他ASR平台);

        生成的时间效率。


Dataset

        26各种类型的歌曲 + 12个常见命令


Experiment Results

    1.Effectiveness

            WTA

                        直接将歌曲输入到系统

                        12个命令分别注入到26首歌中,输入到Kaldi,能成功检测出命令就成功。

                        Table 2:100%成功率;信噪比14~18.6db,扰动很轻微,难以察觉。

Effectiveness--WTA

            WAA

                        3种扬声器在会议室分别播放,用iphone 6s 录制并传给Kaldi

                        两个命令,播放后录制传给Kaldi。

                        Table 3:JBL成功率最高,音质最好;但是SNR均为2db以下,说明随机噪声较大。需要测试人类是否能感知(Table 4)。

Effectiveness--WAA

            人类感知测试

                        204人、26个对抗性歌曲(20s,中间4、5s的命令),给出no,

                        not sure,noisy和words different from lyrics四个选项。

                        WTA:(Table 4)Soft表现最好(但是否也有听得少的原因?);没有任何命令被听出来。

WTA--人类感知测试

                        WAA:(Table 5)40%左右的人认为噪声来自扬声器,仅有2.2%认为是来自样本本身,不到1%的人认为有部分单词不是原本歌曲里的歌词。但是没有人能成功地识别出任何一个命令单词。

WAA--人类感知测试

      2.可移植性

                CommanderSong是否能攻击其他ASR系统

            科大讯飞

                        测试WAA(黑盒)

                        iFLYREC:直接输入WAA语音文件;iFLYTEK Input:播放

                        Airplane mode on成功率较低,另外两个100%,总体还可以。(或许可以扩展?)

可移植性--科大讯飞

            DeepSpeech

                        开源端到端ASR系统。

                        WAA & WTA全部失败,不能被DeepSpeech成功解码。

                        Carlini等人曾经攻击DeepSpeech成功,因此利用他们的方法对生成的对抗歌曲进行修改直至能被DeepSpeech成功识别,再攻击Kaldi,WTA成功。无法实施WAA。

      3.Automated Spreading(WAA)

                Online sharing:上传到YouTube,连接到扬声器播放,iFLYTEK Input接收,最远距离0.5m。成功解码。

                Radio broadcasting:用HackPF One模拟radio,“open the door”可以成功攻击。

      4.Efficiency

                命令语句的帧长度与注入用时的比值。

                Table 2 &Table 3:大部分用时少于2小时;一些简单命令“echo open the door”不到半小时;对于“GPS”和“airplane”用时较长,猜测是由于Kaldi不常用,训练不到位;对于rock music,用时一般会更久,由于不稳定的节奏。


Understanding the attacks

      1.歌曲是如何帮助攻击的?

                歌曲和纯粹的扰动共同构成了目标命令的音素(phoneme)。

      2.噪声对对抗样本的影响?

                使用不同大小的噪声构造CommanderSong,然后使用Spearman’s rank correlation coefficient来分别衡量CommanderSong和原始音乐、纯粹的命令音频之间的差异性及攻击成功率。

噪声对对抗样本的影响

                随着SNR的增大(噪声减少),成功率降低;

                随着SNR的增大(噪声减少),与原始音乐的相似度也越高;

                SNR=4dB是一个比较好的值。


Defends

      1.Audio turbulence

                对input添加turbulence noise,command为“open the door”。

Audio turbulence

                SNR = AI/An,AI是原始音频,An是turbulence噪音。当SNR减少的时候,WTA成功率显著下降,当SNR=15dB时,WTA几乎完全失败。而WAA面对turbulence时鲁棒性高,可能是因为有随机噪声存在。

      2.Audio squeezing

                即降低输入音频的采样率。

Audio squeezing

                M代表原始音频的采样率是测试音频的M倍。


Conclusion

        提出了CommanderSong,是一个将命令语音注入到歌曲中,通过播放歌曲从而使现实生活中的ASR系统识别并执行目标指令的方法,在Kaldi上WTA攻击可以达到100%的成功率,WAA攻击可以达到96%的成功率;同时,具备良好的可移植性,在科大讯飞、微信、新浪微博等等用户数量众多的ASR系统中均能有效攻击;可以通过网络广泛传播(YouTube),效率高、效果好。


文章出处:CommanderSong: A Systematic Approach for Practical Adversarial Voice Recognition

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 215,463评论 6 497
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 91,868评论 3 391
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 161,213评论 0 351
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 57,666评论 1 290
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 66,759评论 6 388
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 50,725评论 1 294
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 39,716评论 3 415
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 38,484评论 0 270
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 44,928评论 1 307
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 37,233评论 2 331
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 39,393评论 1 345
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 35,073评论 5 340
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 40,718评论 3 324
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 31,308评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,538评论 1 268
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 47,338评论 2 368
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 44,260评论 2 352

推荐阅读更多精彩内容