本篇文章5975字,读完约15分钟
本文是首次在微信公共平台上发表:新智元。 文案是作者个人的观点,不代表网络的角度。 投资者据此,风险请自己承担。
【新智元领先】微软亚洲研究院网络图形组培培养了很多中国图形学的人才。 那个首席研究员童欣在内部被称为“童姥”,最近接受了新智元的采访。 用微软制作了将近20年图形的他认为计算机图形和计算机视觉是“好朋友”,深度学习还没有席卷计算机图形学,但结构很快就会被打破。 图形的风口需要创造。 童欣还介绍了微软今年在siggraph上发表的关于三篇深度学习的图形研究。 最后,关于与图形相关的vr/ar,vr是媒体,ar是平台,四项技术高速发展,爆炸期相近。 1993年毕业于浙江大学计算机系,获得工程学士学位。1996年获得浙江大学计算机系硕士学位。1999年获得清华大学计算机系博士学位,同年进入微软亚洲研究院。 我现在为微软亚洲研究院网络图形集团的首席研究员从事计算机图形的研究。的工作。 童欣在微软做了将近20年的图形学是什么? 和计算机视觉有什么关系? 在ai的迅速发展中会发挥什么样的作用? 新智元最近采访了童欣。 他和我们分享了网络图形学的最新进展和深入学习给这个行业带来的变化。
博士从毕业到现在,在微软亚洲研究院研究了18年。 微软亚洲研究院是中国ai行业的无耻“黄埔军校”,大量培养了目前在领域作为中产阶级支柱发挥作用的中坚力量。 在ai迅速发展的浪潮中,很多人来往于这里,童欣毕业后一直呆在微软,名副其实地成为了“老兵”。 在研究院内部,人们亲切地称他为“童姥”。
关于为什么选择留在微软,童欣说:“确实,这里聚集了这么优秀的人做我们喜欢的图形学研究。 这里是国内图形学研究创造最宽松开放的环境,这是我在微软亚洲研究院的乐业魅力。 ”。
猪站在风口上跳了起来,为什么我不在?
童欣:“有传言说如果站在风口上,你就算是猪也能飞。 但是我这么瘦的身体,站了这么久,怎么还没飞,到底出了什么问题? ”。
什么是网络图形?
童欣在接受新智元采访时介绍说所谓的网络图形学,或网络图形学,本质上是图形学,但我们希望与以前流传的图形学略有不同。
以前流传的图形学起源于1960年代,经过几十年的迅速发展,以前流传的图形学在工业和娱乐产业中得到了非常广泛的应用,产业化已经非常成熟。
计算机辅助设计和辅助制造。 从我们身边日常生活的东西到飞机汽车,计算机辅助设计和制造已经广泛应用于工业生产和制造,与图形学形成了比较独立的分支。
游戏,电影中的图形效果。 从完全由计算机生成的动画到手机和游戏机上的游戏,图形学中包含了很多研究成果。
科学计算的可视化和新闻的可视化。 图形显示表现了抽象数据的属性,使大家能够迅速准确地理解和决定数据。 这既包括科学计算、医学应用的可视化技术,也包括近年兴起的新闻可视化和可视化技术。
这些成熟的产业化反而推动了图形学研究几十年的迅速发展和繁荣。 但是,在以前流传下来的图形学中,我们可以看到整个图形学的生产模式从最初到现在是一致的。 也就是说,专家制作优秀的副本,对普通客户逐个收费。 随着网络的迅速发展,图形学不仅没有受益,而且面临着迅速发展的瓶颈。 那么,我们建议网络图形学,处理图形复印生产的everyone和everywhere的问题。 也就是说,可以在网络上在线移动图形,让任何人都可以轻松地制作( everywhere )视觉媒体副本。 不仅能创造,还能轻松分享和享受这些东西。
图形学和现在流行的计算机视觉是什么?
童欣给新智元一个简单的说法,图形学和视觉是两个相反的过程,图形学给了所有的三维场景,如照明、材质、动态新闻等,我们正向生成图像或视频。 视觉是给定的图像和视频,计算机恢复里面三维场景的所有消息,进一步理解场景的意思。
但是,图形学被认为比视觉简单,或者相反是错误的。 这两个学科本质上是硬币的两面,因为他们的核心是现实世界的物理法则和人类的理解创造过程。 计算机的视觉和计算机图形的界限不那么清楚.。 两者有三维重建、材质建模、人体动态捕捉和重建、计算摄像学等大部分重叠的研究行业。 不重叠的行业又互相借鉴,可以说是“一对好朋友”。
例如,在观看图像时,图形学可以告诉你背后的物理摄像原理、场景内的形状和材质特征、照相机摄像中的一点解决步骤。 而且,在设计人理解这个图像的算法时,这些物理法则和特征有助于给图像添加适当的先验假设和条件。 这样可以得到更有效的视觉算法。 另一方面,视觉对图形学的研究也有很大的启发和帮助。 为了生成真实的图形,制作真实的三维场景,副本是从哪里来的? 这需要视觉中很多技术的帮助。 童欣说:“比如做可乐罐,用照相机三维重建,拍大量照片,就可以直接再现这个可乐罐不同的视点、不同光线下的照片。”
深度学习还没有席卷计算机图形,但结构很快就会被打破
关于机器学习与计算机图形的关系,童欣说:“图形学其实一直是一个开放的行业。 很多人对我们的图形学毕竟不用机器学习技术感兴趣。 我们其实早就采用了,但在图形学的研究中,这种做法被称为数据驱动的做法。 数据驱动的图形学历史非常悠久,现在当然也包括深度学习的技术。 ”。
与计算机视觉深度学习几乎渗透到所有分支不同,深度学习现在似乎没有席卷计算机图形学的所有行业。 对此,童欣认为,这方面的原因有几个方面。 另一方面,图形学采用的三维表现多种多样,不是统一的表现。 与图像和视频的表现不同,如何比较有效地比较3d图形数据的深度学习模型(像图像设计专用的深度卷积神经网络cnn )是备受关注的问题。 另外,图形学的很多行业都缺乏大规模优质的数据集。 如何有效地生成这些优秀的图形数据本身是图形学研究的中心问题。 最后,在图形学的很多行业,例如绘画中,对结果的物理正确性和算法的实时性有非常高的要求,在这些方面如何有效地利用机器学习技术(包括深度学习技术),快速地利用比现在的算法更好的处理方案
然后童欣说挑战也是机会。 近年来,图形学的研究开始积极探索利用深度学习技术如何处理不同的图形学问题。 今年的siggraph中也出现了很多与深入学习、机器学习相关的论文,其中很多是中国作者参加的。 除了微软亚洲研究院发表的三项相关事业外,国防科大徐凯副教授等人的形状结构分析事业、香港大学俞益州教授和潘晓光博士等人根据素描的面部表情建模事业都是非常启发性的事业。 从这两年的论文中也可以看到机器学习,特别是深度学习也受到图形学研究者的关注。
最后童欣说:“深度学习是个好工具,但在图形学中,深度学习并不能席卷一切,很可能不是处理所有的问题。
因为复印的价格是比图像理解更难的问题。 另一方面,我们想理解人们的意思和描述,把这些模糊的抽象想象和描述变成具体明确的图形副本。 另一方面,生成的副本必须具有物理合理性,具有丰富而真实的细节。 这个反方向的生成过程在深度学习中也是大家现在刚探索到的问题。 结果可能百花齐放,但意想不到的道路会在一起,用不同的做法组合来实现最终的目标。 ”。
基于八叉树的卷积神经网络降低了三维形状分析计算量
在采访中,还简要介绍了微软亚洲研究院今年在siggraph上发表的3篇关于深度学习的论文。 第一个是用于三维形状分析的基于八叉树的卷积神经网络。
一般来说,cnn对二维图像的分析有效果,nvidia也有专用的库。 但是,3d图形通常用不规则连接的三角形网格或点云表示。 如何将解析规则数据的cnn用于不规则的三角形网格或点云? 变成了大家必须首先处理的问题。
以前传来的数据表现,计算太多太复杂了!
一个直观的方案是在空之间制作规则网格的体素表现,这个形状所占的体素记为1,否则记为0。 如果直接用cnn制作这种三维规则的网格,运算多,噪音大。 分辨率高一点,训练内存开销和速度就受不了。 通常,32*32*32这个小东西不能是连形状细节都不清楚的规则网格。
另一个处理方案是从各立场制作大量的深度图,重叠图像制作cnn,这样的方式可以应对很多问题。 但是我应该拍几张照片? 你从哪个角度画? 我们没有统一的应对措施。 如果形状有内部结构和凹陷部分,这种做法很可能会失去这个部分的消息,导致后面算法的性能下降。 另一个方案是沿着表面制造cnn。 这样的第一个问题是,这需要流形的形状表现,但点群什么也做不了。 另外,大部分表面不能无误差地在一个平面上展开,一定会在一点上拉伸或扭曲,导致算法性能的损失。
童欣说:“我们的事业是利用图形学非常流行的八叉树结构,将空之间分割成八部分,有物体的部分留下,没有的部分做标记扔掉,剩下的继续细分。
卷积时,只在空之间有物体的那个八叉树的树枝上进行。 这种算法所需的空之间和速度,由于制作一张图像多且噪声类似,所以可以解析更高分辨率的三维形状。 基于这个想法,我们进行了gpu上的优化实现,使客户能够采用大部分基于图像的cnn模型,充分发挥cnn的特征。 ”。
cnn与半监督学习相结合,挑战表面材质生成的难题
另一项非常重要的与深度学习相关的事业是在深度学习中自动生成物体的表面材质。
什么是表面材质? 材质确定物体在实际光照下的颜色、反射和表面外观的详细信息。 仅仅从形状上来说,我不知道这个可乐罐是塑料的,金属的,磨砂的,还是研磨的。 除了材质新闻,还有颜色、光反射、高光等,才能知道这是铝砂罐。
材质在图形渲染中很重要。 但是,生成真实的表面材质总是很困难的事件。 童欣说:“有经验的艺术家根据自己的经验,从一张照片中通过photoshop,经过很多复杂的图像操作,可以生成相应的材质图。 如果艺术家做得好,不能利用深度学习技术从图像中自动制作优质的材质图吗? ”。
但是,这里的挑战是,如果我们使用以前传来的cnn训练方法,我们需要输入很多照片和他们对应的实际材质的标定数据。 但是,我们很难找到大量的图像和对应的材质。 否则,我们不需要开发这个工具。
童欣说:“我们的处理方法是,利用来自客户的少量输入图像和对应的材质标签,以及从大量互联网下载的没有材质标签的图像,将新提出的自增强训练方法和绘制算法结合起来训练cnn。 这是比较图形学问题的新的半监督学习的算法。 我相信这个算法有可能处理越来越多的图形学视觉问题。 ’”
另一项事业是微软亚洲研究院视觉计算组袁路和廖菁研究员们提出的新的图像风格化算法,可以生成优质相关的图像风格化结果。 这一成果还再次证明了图形学、视觉研究的相关性。
vr是媒体,ar是平台,四项技术高速发展,爆发期近
vr/ar/mr是与图形学密切相关的应用方向。 在这个方向上,微软推出了hololens这一mr (混合现实)方向的主力产品。 除了微软,facebook、苹果、谷歌等巨头也进军mr。 关于这个方向,他也有点观点。
我喜欢一起说vr和mr/ar,但童欣认为两者有本质区别。 vr越来越成为新的媒体形式。 mr/ar是一个新的平台,本质上是基于语义的地理位置服务。 童欣说:“两者也有共同点,但在关键的应用场景中最终肯定会成为不同的道路。”
如果是娱乐、教育等使用媒体的场景,vr会渗透进来。 ar/mr的应用场景将比vr广泛得多,成为你生活中无处不在的平台。 在理解本质的基础上,可以重新研究vr和ar/mr是否会在应用水平上爆炸。
童欣正在考虑生成和传达媒体最关心的副本。 vr至今仍难以为客户制作体验良好的副本。 vr需要顾客带头盔,顾客需要消耗额外的能量来克服不适感。 这意味着客户对拷贝的期望比现有介质高一个数量级。 糟糕的是,我们现在没有特别的手段来允许客户制作比现在的视觉媒体更好的媒体副本。 以vr视频为例,我们面临的是画面粗糙的粒子感、交互不便、视觉感觉和身体其他感觉体验的分离。 这不仅是图形技术的问题,一系列技术都跟不上。
图形上的问题是如何捕捉更高的分辨率,视点可以自由地移动视频。 其次,从传输机制出发,如何压缩拷贝,减少延迟。 第三,交互意义上,屏幕是这么大的分辨率。 当你看到某个细节时,你是如何自然互动,放大这个部分的副本,并给它特写的? vr给客户带来的体验没有超过给客户带来的额外负担,是重要的角色。 ar/mr也有很多技术难点,但这些技术难点近年来取得了一系列突破和高速发展。
1. slam定位技术目前正在迅速发展
2 .识别技术,识别客户看到的、相互作用的东西吗?
3 .用于手势和视线追踪技术、面部表情追踪技术、自然的交互
4 .显示技术如何实现更轻的头部显示和更大的视角
童欣认为以上关于ar/mr的各项技术在完全成熟之前火候不好,但由于发展迅速,ar/mr的爆发很快就会到来。
童欣告诉新智元,微软在mr的普及方面也与很多公司合作,探索在不同实际场景中的应用。 例如,与蒂森·克鲁普( thyssenkrupp )合作检查电梯,与沃尔沃合作设计汽车,进行医学解剖教育。 对微软来说,现在更重要的是建立健康的生态系统。
微软网络图形集团:培养了很多中国图形学的人才
自2001年成立以来,微软的网络图形培养了大量的中国图形学人才。 这是微软整个亚洲研究院在中国网络迅速发展中所起的作用的缩影。
童欣说,现在的图形学在国内的快速发展水平相当好,在很多研究方面都达到了国际一流水平。 国内很多大学如清华大学、浙江大学、中科大、山大、深圳大学、北大、中国科学院都有能力发表高水平的siggraph论文。 活跃在国内图形学界的知名学者之一,如清华大学徐迎庆教授、刘世霞副教授、浙江大学周昆教授、刘新国教授、中科大刘利刚教授、香港大学魏立一副教授等,曾在微软亚洲研究院图形学集团工作
童欣说:“国内图形学界的各位前辈为图形学的迅速发展奠定了坚实的基础。 图形学界都很团结,想让图形学的生产、学、研制更好。 这几年图形学在中国发展很快,大家取得了许多世界一流的成果。 我很高兴微软亚洲研究院能参加其中,和大家一起努力,为这些迅速的发展做出贡献。 除此之外,互联网图形集团还为微软和产业界做出了很多贡献:微软开源框架cntk中的视觉分析算法和gpu优化xbox平台上的传统平台 这些技术的应用真的推动了产业的进步”。
展望未来,童欣对网络图形学的未来非常乐观:“我们其实刚完成了图形技术迅速发展的基础水平( lowlevel )的研究。 在上一级,如何利用客户简单的输入和结果功能、对场景的理解来制作和交流更智能的副本,是大家才刚刚开始摸索的问题。
如何通过客户语言的输入和理解,帮助客户自动生成高质量的视觉文案,完全打破虚拟和现实边界的交互技术是网络图形学的最终目的。 我们离这个目标还很远,但我们正在朝着这个目标努力。 ”。
复制源:微信公共平台新智元
标题:“微软首席研究员童欣:深度学习将席卷计算机图形,VR/AR爆发临近”
地址:http://www.china-huali.com/cjxw/46002.html