【热门】公司为色情文案苦不堪言？腾讯安全天御毫秒级识别-中华财会网

本篇文章1772字，读完约4分钟

感知中国经济的真正温度，见证梦想时代的脚步。谁能代表2019年度业务中最强的推动力？点击投票，选择你心中的“2019年经济年度人物”。【投票】

随着网络的迅速发展，我们进入了信息轰炸的时代。图像文字、视频、聊天、直播等交互复制已经成为人们日常业务、生活中不可或缺的一部分。但是，这些越来越多的文案中充斥着各种不好的言论、垃圾广告、涉黄等网络垃圾。这些网络上流传的垃圾拷贝不仅对客户的体验有很大影响，还困扰着很多企业。

【热门】公司为色情文案苦不堪言？腾讯安全天御毫秒级识别

面对越来越多复杂的安全形势，公司应该如何“清除污垢”，保护复印安全？在11月6日至7日举行的第一届腾讯科技开发者大会云安全技术和应用专场上，腾讯安全业务安全监督杨红以《新时代复印风控制实践与创新》为中心，比较了复印、照片、音频等载体的复印安全，现状

【热门】公司为色情文案苦不堪言？腾讯安全天御毫秒级识别

色情识别模型，毫秒级识别不良音频

音频是现在在网上迅速发展的新闻载体。现在，游戏内的声音交流成为常态，无论是手机游戏中的声音传送，还是经由声音及时通信工具传送的声音复制，都是声音垃圾复制的受灾地，但声音复制时间短，通道多，识别困难，

在庞大的音频认识中，“鉴黄”确实挑战了巨大的挑战。与标准av音频的识别相比，色情音频在复制、时间长度和通道维上都有好处。例如，具有静音、噪声干扰大、有大背景音乐、时间短、编码风格多样、采样率不统一等优点。这个在识别上有困难。针对这个问题，腾讯的安全性根据ai设计了色情语音识别流程，通过相应的技术删除了静音文案，逐步识别了语音，最后根据各片段的得分和时间总结了整个语音文案的识别结果。比较语音样本收集和标记的难点，腾讯安全天御大量综合网民通报，通过多类型、多标签标记，语音监黄的准确率达到82%，召回率达到90%以上。

【热门】公司为色情文案苦不堪言？腾讯安全天御毫秒级识别

与网络谩骂相比，腾讯安全天控构建了高性能多语言语音关键词系统，通过特征提取、声学建模和解码等技术掌握，以毫秒级识别不良语音。

在线打击+离线收集积极标注，无恶意副本藏身之处

网络拷贝是互联网中最大的新闻载体，大部分网络平台都面临着拷贝安全问题。像网络拷贝这样的垃圾邮件一般包括特殊符号、变异语、多音字、形近字干扰，但以前传来的拷贝策略抗干扰性弱，经常导致误杀。

腾讯安全天御对此建立了——textcnn副本分类算法，通过在线实时打击和离线主动收集标注，使恶意副本无处隐藏。在线模型训练中，补足拼音和结构新闻用于训练，在训练数据中加入同音词和拔字，提高了抗干扰性。对于在线模型无法涵盖的新类型恶意垃圾，腾讯安全天控应设计离线样本的积极收集流程，在学习算法中标记这些数据，分阶段训练分类模型并实时打击

【热门】公司为色情文案苦不堪言？腾讯安全天御毫秒级识别

在该算法的支持下，腾讯安全天御至少提高了50%以上的识别范围，精度和召回率分别达到了90%和80%以上。

多标签学习+细粒度识别，扫荡网络图表的黑暗角落

图像是仅次于拷贝的第二大新闻载体，面临着比拷贝更大的识别课题。腾讯的安全性天御对比提出了多标签的图像识别算法，支持多标签输出、多标签预测。这意味着在一定的粒子度下，在图像上附加“身份证”进行识别。

腾讯安全天御丰富的数据积累是该算法执行的关键。现在腾讯安全天御储存了500多万张各种涉黄图像数据，每个图像有5个主要标签和10个细粒度标签。在标签识别中，普遍存在不同标签数的差异大、样本不平衡、各维标签的响应不同、统一阈值的召回低的情况，这也成为图像识别的难点。腾讯安全天御采用标签级动态采样，将低频标签召回率提高15%。对于维标签问题，请使用验证集进行阈值搜索，并设置多个阈值。

【热门】公司为色情文案苦不堪言？腾讯安全天御毫秒级识别