本篇文章3687字,读完约9分钟
文|吴俊宇
昨天是五四青年节,说到青年节不得不说“德先生”和“赛先生”。
一百年前的五四运动中,响起了“只有德先生、赛先生能拯救中国”的口号。
“德先生”,即“democracy”,德谟克西(音译)——意味着先进的思想。
“赛先生”,也就是“science”,科学苏——意思是“科学”,“科学”是指近代自然科学的法则和科学精神。
今年央视五四晚会的主持人包括“赛先生”。 春晚红包后,央视和百度再次与五四晚会百度脑ai虚拟主持人“小灵”合作。
这个虚拟主持人和主持人王俊凯、黑鬼买了同样的比赛,一点也不下风。
“小灵”背后的技术提供是百度的大脑,其中结合百度的视觉、声音、大数据和ar能力,贯穿大小屏幕,使各电视机前的观众不仅能看到晚会的虚拟主持人,还能直接与其交流体验。
当年五四运动的“总司令官”陈独秀如果看到“小灵”,会惊叹于今天中国技术的强大吧。
一
表演在哪里?
在五四晚会上,主持人“小灵”邀请旁边的真人主持人通过面部识别来测量自己是祖国的什么花。 女主持人与“小灵”的互动非常自然流畅。
许多观众有非常强烈的心情。 这个ai主持人似乎比市场上的其他ai主持人细腻得多。
其他ai主持人就像机器人腔,而且发声时只是一张张嘴,显然号码不合适。 百度大脑这个ai的主持人,怎么心情好?
做“舒服”并不容易。 声音、表情、嘴唇的动作等技术必须一致。
1、声音的音色必须自然
通常,ai语音的背后是语音库。 我在谷歌ai博客上找了ai语音合成的技术模式图。
粗略地翻译这张图的意思: ai语音库的创建步骤大致是三步。
第一步是让文案成为音频,明确音色、风格、招聘行业、产品特征、角色要求。
第二步找到声优的试音,根据诉求设计的试音副本收集录音。
第三步是切实投入声音库的生产线,脚本设计,录音资源培训,效果优化,音色丰富。
百度的大脑为此准备了几十个音库,寻找播音员专家录制各种各样的声音,具备了非常丰富的音色矩阵。
每个音乐库只要客户喜欢,就可以制作虚拟主播、虚拟角色的形象。 这背后的技术其实是基于业界领先的深度神经网络技术,高度拟人化,提供流畅自然的语音合成服务,应用、设备开口,可以变得更有个性。
我在百度脑ai开放平台上找到了百度脑ai开放平台语音合成技术的体验区。 以度逍遥这位感情丰富的男性的声音为例,测试了今年是五四运动100周年的这句话。
这个男人的声音有明显的优势,是很舒服的京腔,不知道的人以为播音员在和自己说话。
百度机器学习模型的研究取得了划时代的成果,其生成的模拟人类声音更真实自然,可以说模拟人类声音和实际人类声音的差异大幅减少。
2、表情嘴唇的动作要丰富
人的表情其实是由脸部肌肉和嘴唇的动作构成的,因人而异,有肌肉的动作。
以下图为例,人可能有一千百种表情。 不同的人表达喜悦、恐惧、骄傲、焦虑时,表情不同。
真正把表情交给人类的时候,我们不一定能正确分类不同的表情。
但是机器会的。 通过基于大量脸部特征的数据学习进行提取,机器可以学习并总结脸部肌肉、嘴唇动作最细致的表现,从中学习人类的表情特征。
需要输出时,通过深度学习进行表情驱动,表情变得更丰富,连续显色,直到年龄自动生成。
百度大脑的技术逻辑与此基本相同。
在百度脑ai开放平台上,百度脑在检测到人脸后,分解人脸,得到眼睛、嘴、鼻子轮廓等150个关键点的定位,能够正确识别性别、年龄、表情等多个面部属性。 该技术也能适应大立场的侧脸、遮蔽、模糊、表情变化等各种实际环境。
百度的大脑将声音、表情、嘴唇的这些素材经过数据收集、特征分析、模型训练,用深度学习的一点核心算法和思想制作了嘴唇的运动技术,将嘴唇的运动、表情和声音更好地结合在一起。
过去的其他ai主持人只有一个语音库,表情和嘴唇动作很初级,百度使三种技术都一致,而且通过ar技术输出,比其他制造商想得更细。
二
产品在哪里使用
你已经只能为百度大脑ai主持人主持这个派对了吗?
当然不仅仅是那个。 其背后的技术有脸部识别、声音合成、ar输出等。 这些ai技术可以组合不同的产品,为其他顾客采用,帮助领域的顾客改善服务,提高效率。
实际上,依靠百度大脑的百度ar lab (百度增强现实实验室),提供ar技术、产品、服务的一站式智能互处理方案,业务已经广泛复盖了营销、娱乐、教育、文化等各个行业。
1、教育和阅读类产品:使课程和说明更生动
在类app上阅览小说和信息时,如果使用语音合成技术向客户提供多个发音者的朗读功能,就可以释放双手和双眼,获得更终极的阅览体验。
其实熊猫看书、看小说已经采用了百度大脑这一技术。 客户可以直接用语音播放电子书的复印件。
教育类顾客也同样引进了这样的ai主持人,可以定制一点儿童故事机、智能机器人这样的教育类设备和课程中属于自己产品的形象、声音,使课程更加亲切。
深圳一家叫aimouse的智能鼠标制造商和kido儿童手表企业品牌采用了百度这个技术。 kido通过活用百度语音识别和语音合成技术,优化了机器人的语音对话体验,使儿童手表实现了语音对话。 这块手表的日活量也达到了一百万级。
2 .生活和服务类产品:提高服务的交互效率
语音合成也可以应用于出租车软件、餐饮叫号、排队软件等场景,通过语音合成的订单广播,可以让客户轻松获得通知新闻。 面部识别可以开展客户识别、订单校正。
无论是语音合成还是面部识别,都天然适合服务业的场景。 订购酒店和酒店等服务业后,可以定制只有自己的机器人,为客户提供支持。 在订单检查的过程中,可以根据客户的面部特征开展服务。
嘀嗒出行出租车事业的“听单”和顺风车事业的“听单功能+派遣服务”使用了百度的语音合成技术。
年10月开始访问百度语音合成sdk。 随着嘀嗒业务的发展,呼叫量每天都在增加,一天的呼叫数千次以上,错误率几乎为零。 百度语音合成技术保证了核心调度功能的稳定服务。
3、电影娱乐产业:节约动漫领域的人力
电影、动画领域的未来效率也将通过百度脑这一ai技术大幅提高。
在过去的动画、电影领域,为了调整动画人物的嘴唇和表情,必须手动调整,看着动画师的主观思考。
如果把百度这个技术出口到动画领域,直接由机器生成就ok,动画师的后期编辑也很方便。 程序驱动后,动画角色语言嘴唇动作的连续性也完全一样。 说同一句话时不出现不同嘴唇运动的现象。
电影、动画产业的动画师将来可以专注于越来越多有价值的工作,不仅可以节约人工费,还可以缩短工作时间。
当然,这里列举的这些例子完全不概括脸部识别、声音合成、ar等基于技术融合的应用场景。
让我举这些例子。 你只有非常努力,才意味着看起来不辛苦。
三
百度队长“赛先生”
在央视五四派对上这个ai主持人表面上看起来只是在主持派对。 实际需要的ai技术基础很深,放在各行各业可以带来更大的实际利益。
正如美国软件技术人员埃德伯内特所说:
现在天上有31颗卫星绕地球运转。 没有别的。 我是为了教你怎么走便利店。
如果只看手机地图上的便利店怎么走,显然低估了很多事件。
因为天上的31颗卫星不仅为你服务,还为所有行业服务。 那才是你没看到的东西。
英国学者李约瑟( joseph needham )在编辑的《中国科学技术史》中提出了这个问题。
中国古代对人类科学技术的迅速发展做出了重要贡献,为什么科学和工业革命没有在近代中国发生?
作为世界闻名的文明古国,在技术上有那么多骄傲的成果。 明明自己发明了火药,却被八国联军炸毁了封建的牌坊。 发明了指南针,却被英国战舰叫去了。
一百年前的五四运动是寻找这个答案的过程。 五四青年们由于国家的贫困和贫穷,走上了呼唤“德先生”和“赛先生”的道路。
德先生和比赛可以说是推动中国社会前进的两个车轮。
今天,世界上也围绕“比赛先生”展开了竞争。 今后20年是ai时代,ai是现代的“比赛先生”。
百度为了代表中国公司,在ai行业不太让步,但多年前呼吁的“赛先生”已经不是短板了。 赛先生是当今中国走向世界技术高峰的重要基础。
正如现代哲学家西闪“国家计算”所说,以ai为代表的“赛先生”精确地计算了所有的东西。
在现实世界的“赌局”中,帕斯卡之神退休了,取而代之的是信仰的“未来”。 就像永远的奖杯一样,在时间结束时闪耀着。 计算取代了程序化的行动训练发展成了新的思维习性。 “理性计算”已成为近代进程的最重要特征。
五四运动的倡导者陈独秀如果看到中国科技公司让“赛先生”这么强,恐怕会说一句“你真秀! ”。
---------------32 --------------------------------------------- -32 更-------------------------32
作者|吴俊宇公众号|深度数度
科技企业,关注网络现象的解读
曾获得钛媒体、、年度作者
本创事记年度十大作者
品网年度十大作者
腾讯科技年度最有影响力的新媒体
全天候滚动播放最新的财经信息和视频,越来越多的粉丝福利扫描二维码备受关注( finance )。
标题:【热门】百度大脑出了个AI虚拟主持人 我扒了扒这位新青年的“前世今生”
地址:http://www.china-huali.com/gphq/3276.html