本篇文章4213字,读完约11分钟

中国电子银行网讯 年12月8日,中国金融认证中心( cfca )举办的“科学技术+金融、启创银行未来”高峰论坛和第12届中国电子银行年会在北京召开。 大约400名商业银行电子银行的负责人访问了这次年会,对区块链、金融大数据、银行机器人、移动金融、直销银行的新业务状态等热点进行了深入的探讨和交流。 《中国电子银行调查报告》与中国电子银行金榜奖同步对外公布。

“得意音通郑方:对声纹认证的三类攻击可以防范”

北京得意音通技术有限责任企业理事长、清华大学语音语言技术中心主任郑方在论坛上就声纹识别行业的有关问题接受了中国电子银行网记者的采访。 以下是详细的采访复印件。

记者:郑先生,你好。 感谢您光临本电子银行年会,发表精彩的演讲。 声纹技术现在在你的指导下迅速成熟。 有几个问题。 首先,在银行业,声纹技术如何与应用场景融合,会带来什么样的智能体验?

郑方:声纹识别在银行业使用,其实第一是用于远程认证。 因为现在从新闻安全的角度来看,数据安全(存储、传输等)、互联网(防火墙等)等安全技术比较成熟,一点保障也很好。 但是在移动金融业,身份认证有点无力,现在流行的短信验证码取决于你使用的手机。 手机丢失后,其他人也可以用SMS验证码找回各种新闻,所以不是处理问题的最好方法。 声纹正好在偏远的地方,可以用语音验证身份,处理身份认证问题,比较方便。

“得意音通郑方:对声纹认证的三类攻击可以防范”

我们现在提出了结合短信验证码和声纹的方案。 结合后,在严重的时候同时验证了验证码和你的声纹,达到了双重的安全保障目的。 声纹识别是人工智能技术的一种,适用于移动金融行业的远程认证。

记者:声纹技术有助于银行提高风险管理能力吗?

郑方:我刚才说的问题和这个问题比较相似。 也就是风险管理方面的问题。 在风险管理方面,我不是专业从事这个行业,我不能说话。 但是,我做了顾客,我的体会是,进行账户操作,可以访问一些账户,或者不能访问一些账户,所以需要验证合法性。

“得意音通郑方:对声纹认证的三类攻击可以防范”

二是客户资金数据访问或资金转移。 两者都有关系。 可能设置了不同的权限。 权限级别高的人可以看到所有的金融数据,但低的人看不到那么多。 如果能认证身份,在这方面就能很好地控制。 我们也做过和中国移动类似的项目。 他们在权限的限定上,通过声纹的身份认证来实现。 另一个问题是资金的提取、汇款、转账、支付等,重要的是认证。 如果身份明确,即使别人偷你的密码,偷你的账号新闻,那也没什么用。 所以,我认为风险管理还是和身份认证有关。

“得意音通郑方:对声纹认证的三类攻击可以防范”

记者:利用声纹技术进行顾客认证,具备什么样的安全性? 在指纹、脸、虹膜等生物识别技术高速发展的背景下,声纹技术有它们的核心竞争力吗?

郑方:你这个问题很好。 很多人问了我类似的问题。 众所周知,指纹和面部在很多情况下都已经应用了。 人们为什么精通它,理解它,而且比较同意,关键是它是有形的,可以看到,可以触摸到。 因为看不到声音,摸不到声音,所以在客户采用声纹的时候,对客户的接受有点障碍。 但是我认为语音是远程认证时最好的生物特征。 特别是在防止假攻击方面,当然还有很多研究脸、指纹等的单位。 另外,追加一维,维增加后,成为三维的识别,为了防止假体的攻击,可以进行很好的活体检查。 我同意这方面的尝试和效果。

“得意音通郑方:对声纹认证的三类攻击可以防范”

但是,如果我们真的要给客户使用的话,最终必须看客户的接受程度。 客户接受程度的因素有很多。 第一,是否感觉不到这种安全性是一个感官问题。 其次,你这个产品的价格会怎么样? 例如,对于建筑(智能手机)银行应用程序,语音可以快速指数增长。 这是因为手机随处可见。 安装手机app后,声纹识别开关打开后即可使用。 不需要添加额外的硬件,也不需要占用额外的带宽。 其他技术可能行得通,但可能需要添加额外的硬件、特殊的硬件。 但是,如果有像建设这样的2亿电子银行的顾客,你一次发送这些额外的硬件,让顾客更换手机,换代不容易,也不容易。 客人也问这笔钱是银行支付还是客户支付。 银行支付的话,这个可以,但银行一个一个支付需要时间。 要让客人付款,对不起,客人不一定想付款。

“得意音通郑方:对声纹认证的三类攻击可以防范”

另外,这些特征都是静态的生理特征,静态最大的优点是不变的,相对不变。 现在的人工智能技术发展迅速,如果你不变,我可以想办法模拟。 或者,你也可以改变。 例如,就像人的脸一样,你可以让客人眨眼,张开嘴,摇头。 但是变化的种类太少,机器可以模仿。 语音并非如此。 世界上很多语言,例如,即使只考虑中文,汉字也有5000多个,可以组合成不同的句子,变化很多。 这么多组合,把它们录下来模仿真的很难。 这种优势在防止攻击方面有天然的特征。 其他生物学特征我不否认它们是好的特征,但声音可能比它们好或最好。 在这期间,我只是进行了理论上的分解,之后与建行、银联、国家新闻中心等合作,看到客户的量急速增加,时间验证认为前面的分解是正确的。

“得意音通郑方:对声纹认证的三类攻击可以防范”

记者:你怎么看待高真语音模拟对声纹技术应用的影响?

郑方:现在对声纹认证的攻击大致分为几类。 第一类是模仿,第二类是语音合成或语音转换,第三类是录音播放。 这三个类别都比较常见。

首先说模仿,实际上我们人的感觉真的很像。 比如,赵本山在模仿谁? 人听起来怎么样? 比如上个时期有名的藏族年轻人叫洛桑·努尼瓦,他模仿别人的声音。 但是,我称之为“听觉欺诈”。 人一听事情其实很容易上当。 类似于视觉欺诈。 例如,一组平行的直线。 如果交叉等间隔的折线,这些线好像不平行,但实际上是平行的,这就是视觉欺诈。 听觉也被欺骗,容易被语调、语调等欺骗。

“得意音通郑方:对声纹认证的三类攻击可以防范”

我们用机器评价发现,这些模仿(原声和)的差异太大,无论赵本山还是洛桑,(和真人的声音)其实完全不同,语调、语调的习性相似。 有数据可以证明问题。 2004年山西省公安部门邀请我参加了公安部“双子语音声纹鉴定研究”的课题检查鉴定会。 他们找了23对双胞胎,而且是同卵双胞胎的语音数据,专家听,几乎准确率是85%,我当时把数据拿来,拿来机器看看。 结果100%的地区分开了。 人听到的模仿声音通常容易上当,要么语调相似,要么节奏相似。

“得意音通郑方:对声纹认证的三类攻击可以防范”

第二个是合成的问题。 现在语音合成技术包括语音转换技术。 听奥巴马的声音数据,学习模型参数,可以合成新副本,转换声音,确实很像。 现在还可以通过模仿其他一点生物学特征进行攻击,但对于声音至少近120年不能,这是为什么? 声音里包含的消息太多了,上午我说的有六七种,其实有越来越多的消息。 这么多消息,你可能模仿中间的一两种,但都不要模仿。 我们对语音的这种检测是综合的,只要在你所有的新闻中找到合成的痕迹,就很快知道你的语音是合成的,所以模型语音非常难攻击。 根据现在的实验结果,第二攻击还是不可能的,系统很容易阻止第二假攻击。

“得意音通郑方:对声纹认证的三类攻击可以防范”

第三个是录音播放。 录音播放最难的是因为老实说是你真正的声音。 但是,在我们的方案,也就是声密保方案中,每次让你说的话都变了,你就拿不到了。 当然,一旦录音后拼接、播放,系统的检查很难。 幸运的是,只要录音-拼接-播放进入系统,只要它对语音信号产生破坏和影响,我们就有可以检测的专利技术。 这是专利技术,我们也研究和开发了很多年才使它成功。 最近,一家银行找了几家制造商进行录音检查,我们检测到了100%的录音。 其他制造商做不到。

“得意音通郑方:对声纹认证的三类攻击可以防范”

这样看来,最难的(问题)是我们已经处理了它,简单的更不像话。 当然这句话也绝对不会。 现在人工智能发展很快,一百二十年后,语音合成和转换的技术可能会更好,那时我们有了更好的检查方案。

记者:说说你对技术+金融的看法,向往未来的银行。

郑方:我只说其中的金融安全。 金融安全是平民( 603883,应该是股票吧)最关心的问题。 把钱放在你的银行里,我信任你,毕竟你丢了钱,说你不负责任,这样事件的平民一定不能接受。 在这里声纹可以更好地从几个不同的层面处理客户的疑问。

“得意音通郑方:对声纹认证的三类攻击可以防范”

第一种是他的心理感觉。 我和很多人说过话。 包括银领域、科技界的人,以及普通顾客的朋友,你们为什么不使用(手机的)银行应用,这不是很方便吗? 他说你会拿到一些钱,我丢了吧。 就像现在有点常用的支付工具一样,非常方便。 这个很好。 但是金额变大了,几万,几十万,甚至几百万,我不想用,所以不想用。 如果安全的话,你敢用吗? 他们说安全,我绝对可以用,我想用得更多。 手机很方便,随时在身边,让我去柜台,很花时间啊。 声纹识别让你处理这个(安全)问题,你认为它是安全的。 这是感觉。 事实上,这种感觉有时很重要,人使用有时也在这种感觉。

“得意音通郑方:对声纹认证的三类攻击可以防范”

第二,实际上,它也真的能处理安全问题,非常高精度地进行认证。 另外,如果失去其他生理特征,别人可以在其他地方采用这些特征,你很害怕。 对于声音,本身很难被别人模仿,很难被别人偷走,所以自己的安全问题也能做好。

“得意音通郑方:对声纹认证的三类攻击可以防范”

记者:为什么说声纹识别是远程认证的最佳处理方案? 你为什么认为电子银行的声纹时代到来了?

郑方:电子银行的声纹时代,最初打算报告的时候,也有人说不能叫声纹时代。 这里我要认真谈谈,首先声纹时代一定到了。 这许多专家有共识,觉得国际上有点科学家,产业界有点开始使用声纹科学技术,用于出入境控制,罪犯追踪,金融安全等。 今天加了“电子银行的声纹时代”这样的定语,我觉得这句话还是很严谨的,可以说得更好。

“得意音通郑方:对声纹认证的三类攻击可以防范”

现在我理论上分解这个事件。 2008年由我主导制定了中国第一个声纹识别的标准,那时很多人不相信声纹是实用的。 之后,分解声音有它的优势,有好处,所以我想一定可以使用。 但是,真正最后一次被实践验证是到什么时候呢? 年左右,4g许可证发放后,根据工信部的统计,高端智能手机的顾客数量超过6亿人,基本上有行动能力的人可以说拥有高端智能手机。 当这两个元素结合在一起时,所有与它们相关的应用程序都会出现。 使用app、无线、手机进行携带,使用它进行支付的话,82%的客户会有习性地采用,(手机的)银行应用的时代一定会到来。 有些银行还在使用音频屏蔽,但我不知道你是否知道。 虽然是可以连接手机音频端口的顾客证明书key,但是所有的外部设备都有忘记手机或者丢失手机的问题,一定会变得不方便。 然后iphone7一出来,音频端口就没有了,音频屏蔽就没用了。 但是如果使用声纹(如果没有这个问题),手机的麦克风永远不能关掉,一直可以采用。 实践上也说明,当(手机的)银行应用程序的声纹识别发表后,顾客数量呈指数级增加,这种增长速度使我兴奋。 所以,我在电子银行业,说声纹时代确实来了。

“得意音通郑方:对声纹认证的三类攻击可以防范”

谢谢你!

标题:“得意音通郑方:对声纹认证的三类攻击可以防范”

地址:http://www.china-huali.com/cjxw/48895.html