自家的书房/卧室 or 任何空间中按照公司的要求安置深度摄像头,这些摄像头可以拍摄你的3D影像(通过算法剔除你家中那杂乱无章的背景,剔除你穿的睡衣,并自动贴图上工作装)并上传到公司托管在云端的实时工作系统中。你的同事和上司可以通过AR眼镜看到你在工作,你也可以通过你的AR眼镜看到同事和上司,并选择某个人(戳一戳)来交流,就像是你们在同一个房间那样自然。你们在交谈时可以随时在AR环境中召唤一块虚拟的黑板来写字,也可以互相扔文件,并利用google docs这样的模式同步在线编辑。你的上司可以随时查看你在干啥,当然,他只在工作时间里拥有这种权限,当你表明自己下班后就看不到你在自己的屋里干啥了(当然你也可以在工作时间关闭摄像头分享权限,如果你够NB能无视领导的话)。云端的安全性将保障工作信息的安全。
三维感知部分并不是什么新东西,计算机视觉或机器人学中的 SLAM(Simultaneous Localization And Mapping,即时定位与地图构建)就是做这个的,已经有 30年 的历史了。设备通过各种传感器(激光雷达,光学摄像头,深度摄像头,惯性传感器)的融合将得出设备自己在三位空间中的精确位置,同时又能将周围的三位空间实时重建。
最近 SLAM 技术尤其火爆,去年到今年两年时间内巨头们和风投收购和布局了超级多做空间定位技术的公司。因为目前最牛逼的 3 大科技技术趋势:无人车,虚拟现实,无人机,他们都离不开空间定位。SLAM 是完成这些伟大项目基础中的基础。我也研究 SLAM 技术,所以接触的比较多,为了方便大家了解这个领域,这里简单提几个 SLAM 界最近的大事件和人物:
1. (无人车)Stanford 的机器人教授 Sebastian Thrun 是现代 SLAM 技术的开创者,自从赢了 DARPA Grand Challenge 的无人车大赛后,去了 Google 造无人车了。SLAM 学术圈的大部分研究派系都是Sebastian 徒子徒孙。
3. (虚拟现实)最近 Surreal Vision 被 Oculus Rift 收购,其中创始人 Richard Newcombe 是大名鼎鼎的 DTAM,KinectFusion(HoloLens 的核心技术)的发明人。Oculus Rift 还在去年收购了 13th Labs(在手机上做 SLAM 的公司)。
4.(虚拟现实)Google Project Tango 今年发布世界上第一台到手就用的商业化 SLAM 功能的平板。Apple五月收购 Metaio AR,Metaio AR 的 SLAM 很早就用在了 AR 的 app 上了。Intel 发布 Real Sense,一个可以做 SLAM 的深度摄像头,在 CES 上 Demo 了无人机自动壁障功能和自动巡线功能。
5. (无人机)由原来做 Google X Project Wing 无人机的创始人 MIT 机器人大牛 Nicholas Roy 的学生Adam Bry 创办的 Skydio,得到 A16z 的两千万估值的投资,挖来了 Georgia Tech 的 SLAM 大牛教授Frank Dellaert 做他们的首席科学家。
SLAM 作为一种系统耦合度高的核心基础技术,其实全世界做 SLAM 或传感器融合做的好的大牛可能不会多于 100 人,并且大都互相认识。这么多大公司抢这么点人,竞争激烈程度可想而知,所以 Magic Leap 作为一个创业公司一定要融个大资,才能和大公司抢人才资源。
回复 ( 10 )
这是个好问题,我也思考了很久,以下是我总结的一点初步观点。
AR/VR技术 + 完善的无人驾驶物流网,是可以对一线城市起到釜底抽薪的作用的。因为这些技术有可能摧毁城市存在的价值基础。
设想以下的技术被运用起来:
1,AR+在线协作实现高效的在家办公
自家的书房/卧室 or 任何空间中按照公司的要求安置深度摄像头,这些摄像头可以拍摄你的3D影像(通过算法剔除你家中那杂乱无章的背景,剔除你穿的睡衣,并自动贴图上工作装)并上传到公司托管在云端的实时工作系统中。你的同事和上司可以通过AR眼镜看到你在工作,你也可以通过你的AR眼镜看到同事和上司,并选择某个人(戳一戳)来交流,就像是你们在同一个房间那样自然。你们在交谈时可以随时在AR环境中召唤一块虚拟的黑板来写字,也可以互相扔文件,并利用google docs这样的模式同步在线编辑。你的上司可以随时查看你在干啥,当然,他只在工作时间里拥有这种权限,当你表明自己下班后就看不到你在自己的屋里干啥了(当然你也可以在工作时间关闭摄像头分享权限,如果你够NB能无视领导的话)。云端的安全性将保障工作信息的安全。
2,VR购物体验
通过VR在家里就可以逼真地实现购物体验,试穿,下单,随后自动化的无人车/无人机物流将会将产品送到你家,电商通过VR将可以显著超越实体店的体验。当然,你在VR里可以和你住在几千里以外的闺蜜一起逛街,想怎么逛怎么逛,不会出现找不到店的情况,还不累。再也不存在逛超市大采购这回事了,你的私人量化系统会学习你的生活历史,并自动采购添置你需要的生活用品。实现模式参见刚才写的在线工作的方法。
3,AR实现逼真的社交
设想你的facebook被搬到了VR上,你可以痛快地和志同道合的朋友一起“面对面”地交流,无论身处何地,不受地区限制。实现模式参见刚才写的在线工作的方法。
4,在线教育
小孩可以利用和工作类似的模式实现远程教学,他们将会受到全世界最好的教育(因为很多教育资源是随手可及,你可以在线听着全世界最好的老师的lecture,并通过AR和全世界各个地方的孩子交流和讨论)。实现模式参见刚才写的在线工作的方法。
5,远程医疗
未来的医疗,初诊都会通过在线医疗的方式实现,AI系统知道你的全部生活和医疗历史,还知道你昨天吃了啥东西,如果你腹痛就可以快速给出初诊意见,医生稍微问一下就可以确诊,药物通过电商的途径发送过来。更大的手术等操作则需要用无人车把你运到治疗中心。这些治疗中心没有任何必要建在大城市,而是贴近医生们喜欢居住的郊区。
6,灵活的性需求(陌陌)
如果你结婚了,你当然可以和老婆一起到处跑,反正她的工作如果也是白领工作,那在哪儿工作都是一样的。如果你没有结婚,那你就可以满世界泡妹子了。
因此AR/VR技术意味着:
1,我不需要住在大城市,天天通勤来办公室上班,这浪费我的时间也浪费公司的钱(我的通勤费和损失的工作时间最后会体现在公司的cost里),而且我的生活成本也得以降低。
2,我不需要住在大城市来享受便利的生活条件,因为在家用电商更方便,更灵活,更便宜,体验还更棒。
3,我不需要住在大城市以确保可以离我的朋友们近一点以方便出去玩,因为我可以在VR中和他们一起high,比如:一起在虚拟的太空中漂浮着打麻将。我不希望为了见朋友1个小时,在周末挤2小时地铁。
4,我不需要住在大城市来为我的小孩提供教育,我可以在家里多和他玩而不是把时间浪费在通勤上,我工作的时候让他去VR世界自己探索,去和小朋友们在VR的游戏世界里玩耍探索就好了。他的小朋友的构成将不会被地理距离限制,而是真正出自个人兴趣和父母(也就是我)的社会经济地位。我自然不愿意他从小和穷人家的小孩一起玩。
5,我不需要住在大城市来获得良好的医疗资源
6,我不需要住在大城市来满足性需求
那么,我为啥要在大城市这种不适合人类居住的地方住并买一个房子?我可以在全世界任何地方居住,并通过云端+快递来工作和获取生活用品和服务。那么大城市存在的理由就被掏空了,“商街旺铺”,“近地铁半小时通勤圈”这种概念将会被扫入历史的垃圾堆。人们可以住在自己喜欢的舒适的地方,没有雾霾,景色宜人。
哦对了,你还要把共享经济考虑进来,既然你不用在一个固定的地点买房子,那为啥不采用airbnb的模式来居住呢(还可以满世界泡妹子)?你可以在airbnb上短租房子,夏天住在北海道的文艺小镇,冬天住在巴厘岛的沙滩上,反正每一个房子都有标准化安装的深度摄像头和高速网络(那个时候光纤就像是电线一样,是刚需的基础设施),只要在房屋的中控系统上登录我的身份证并重置,这个屋子就会接上我在云端的个人账户并按照我的生活历史和工作需求进行优化,我就可以立刻开始生活和工作了。如果我很喜欢这个地方,我大可以把这个屋子从房东(房东此刻可能正在另一个人所持有的屋子里生活和工作)那儿盘下来,自己想怎么改装怎么改装。厌倦了就可以再从airbnb租出去收租,要是碰到下一个买家还可卖出去收回钱还贷。如果我想要在现实中和我的朋友一起玩,我可以很方便地在他住的附近找一个airbnb搬过去住几周,直到我们互相都满意(或厌倦)了为止。这种频繁的搬家并不意味着带上很多箱子,因为大部分日常用品都是采用共享经济获得的(使用权),某些我珍爱的东西则可以通过极为廉价的物流运到新的地点供我重新装置。
你对这种生活感到很向往吗?反正我是非常向往的。
这个愿景里涉及到的技术其实并没有遥不可期,很希望可以从现在开始对这个产业链所涉及的基础设施加以投资,那么我预计在2050年我退休后,就可以舒适地用之前对这个愿景的投资收益来养老了。想一想从1982年开始对电脑,软件和互联网标的进行持久和有计划投资的人们,在2016年的当下该多么财务自由。主要的基础设施包括:
1,高效物流所需要的自动化仓储,低成本交通,无人驾驶汽车/飞机/货轮
2,VR/AR相关的技术标的
3,VR电商标的,尤其是体验优化仿真(个人感觉这块需要借助游戏界的研发力量)
4,共享经济相关的类uber,airbnb商业模式标的
5,高速互联网的基础设施建设和数据优化标的
6,远程协作工作的平台建设标的
7,云端商业数据安全的标的
8,风景优美,基础设施完善的地方有潜力改装成airbnb SOHO的不动产资源(巴厘岛的沿海地段会紧缺)
其他的再慢慢想
中国的房价是无法用技术影响的,政策可以影响。
谢不邀!
从理论上,无人驾驶技术和VR/AR技术是可以影响房价的。无人驾驶,使得交通会越来越方便。所以很多人愿意住在郊区,甚至更加偏远的地方。VR和AR也是,当技术发展到一定程度,可以远程协同办公,不用来上班,就能有在一起上班和开会的感觉。
听起来真的很美好。但对于房价这个话题,真不是这样来推导的,至少跟这个关系是弱关系。因为当无人驾驶技术和VR技术都很好的时候,中国人可能不再有购房的心态了。因为一直以来,中国的房价都是虚高的,虚高的原因有很多,比如供需,比如社会心态,比如炒房,比如这一届的守旧年轻人太多。
但我想说的是,现在开始中国已经进入老龄化的社会了。这意味着,年轻人可能越来越少,老人越来越多。老人大多数是有房子的,年轻人的房子也不用规模递增,加上年轻人的消费观念不再那样了。所以放假自然会下降,或者不再上涨。
当然,影响房价上涨的原因太多了,这里一时半会也说不清。但回到无人驾驶技术,理论上好像很有影响关系,但实际上估计是so what。
不过我倒认为,VR和AR,未来一定能帮忙降低建造和销售房子的成本。
教育是个问题,你确定小孩不需要接触真实世界里一堆小孩一起玩?这样的话学区一样存在,教育本质上是你跟谁一起上学
然后是频次略低的医疗,关键是医疗影像的昂贵设备,比如MRI平民化啥的,包括微芯片化验这些将来会是风口
VR时代的时装行业也会很吊诡,可以装扮数字虚拟化,到底自己身上是穿还是不穿,而别人又凭什么决定见你,VR自拍也会流行吗?
以及制造业/真实物理世界的研发行业,没法让老板把整个工厂运过来,传送的你确定能用?
并且真心全世界VR了,流量又要升级了,华为又要赚大钱了。
说到底我其实是很支持VR颠覆地产的哈哈哈。
独家!从微软hololens解析VR、AR、无人驾驶、无人机的关键技术 |VR第一资讯 VR013
后天,也就是3月30日,微软HoloLens开发者版将正式发货,而且微软似乎想要给大家一个惊喜,现在微软表示第一批货目前已经提前发出。在说HoloLens之前,我们先说下AR的鼻祖而且极具想象和神秘的公司Magic Leap,下面2段视频是产品的效果视频Youku Universal Player
http://player.youku.com/embed/XMTM2NjM0MjE1Ng== …
很酷吧,我们再看看微软hololens的效果视频:
http://player.video.qiyi.com/60c2920990da5622b34abb5abfc143e3/0/360/w_19rrq0ketx.swf-albumId=3988178809-tvId=3988178809-isPurchase=0-cnId=8 …
下面是干货
首先呢,科普一下 Magic Leap 和 Hololens 这类 AR 眼镜设备,都是为了让你看到现实中不存在的物体和现实世界融合在一起的图像并与其交互。从技术上讲,可以简单的看成两个部分:1. 对现实世界的感知(Perception) 2. 一个头戴式显示器以呈现虚拟的影像 (Display) 。
我会分感知部分和显示部分来分别阐释 Magic Leap 的相关技术。
先简单回答这个问题:
==== 显示部分 =====
Q1. Hololens 和 Magic Leap 有什么区别?Magic Leap 的本质原理是什么?
感知部分其实 Hololens 和 Magic Leap 从技术方向上没有太大的差异,都是空间感知定位技术。本文之后会着重介绍。Magic Leap 与 Hololens 最大的不同应该来自显示部分,Magic Leap 是用光纤向视网膜直接投射整个数字光场 (Digital Lightfield)产生所谓的 Cinematic Reality(电影级的现实)。Hololens 采用一个半透玻璃,从侧面 DLP 投影显示,虚拟物体是总是实的,与市场上 Espon 的眼镜显示器或 Google Glass方案类似,是个 2 维显示器,视角还不大,40 度左右,沉浸感会打折扣。
本质的物理原理是:光线在自由空间中的传播,是可以由 4 维光场唯一表示的。成像平面每个像素中包含到这个像素所有方向的光的信息,对于成像平面来讲方向是二维的,所以光场是 4 维的。平时成像过程只是对四维光场进行了一个二维积分(每个像素上所有方向的光的信息都叠加到一个像素点上),传统显示器显示这个 2 维的图像,是有另 2 维方向信息损失的。而 Magic Leap 是向你的视网膜直接投射整个 4 维光场, 所以人们通过 Magic Leap 看到的物体和看真实的物体从数学上是没有什么区别的,是没有信息损失的。理论上,使用 Magic Leap 的设备,你是无法区分虚拟物体和现实的物体的。
使用 Magic Leap 的设备,最明显的区别于其他技术的效果是人眼可以直接选择聚焦 (主动选择性聚焦)。比如我要看近的物体,近的物体就实,远的就虚。注意这不需要任何的人眼跟踪技术,因为投射的光场还原了所有信息,所以使用者直接可以做到人眼看哪实哪,和真实物体一样。举个例子:在虚拟太阳系视频的 27 秒左右(如这个 gif 图),摄影机失焦了,然后又对上了,这个过程只发生在摄影机里,和 Magic Leap 的设备无关。换句话说,虚拟物体就在那,怎么看是观察者自己的事。这就是 Magic Leap 牛逼的地方,所以 Magic Leap 管自己的效果叫 Cinematic Reality。
查看原图
Q2. 主动选择性聚焦有什么好处?传统的虚拟显示技术中,为什么你会头晕?Magic Leap 是怎么解决这个问题的?
众所周知,人类的眼睛感知深度主要是靠两只眼睛和被观察物体做三角定位(双目定位, triangulation cue)来感知被观察物体的与观察者的距离的。但三角定位并不是唯一的人类感知深度的线索,人脑还集成了另一个重要的深度感知线索:人眼对焦引起的物体锐度(虚实)变化(sharpness or focus cue) 。但传统的双目虚拟显示技术(如 Oculus Rift 或 Hololens) 中的物体是没有虚实的。举个例子,如下图,当你看到远处的城堡的时候,近处的虚拟的猫就应该虚了,但传统显示技术中,猫还是实的,所以你的大脑就会引起错乱,以为猫是很远的很大的一个物体。但是这和你的双目定位的结果又不一致,经过几百万年进化的大脑程序一会儿以为猫在近处,一会儿以为猫在远处,来来回回你大脑就要烧了,于是你要吐了。而 Magic Leap 投影了整个光场,所以你可以主动选择性聚焦,这个虚拟的猫就放在了近处,你看它的时候就是实的,你看城堡的时候,它就是虚的,和真实情况一样,所以你不会晕。演讲中 Gary 调侃对于 Jean-Yves 这种带 10 分钟Oculus 就吐的家伙来说,现在他一天带 16 个小时 Magic Leap 都不会晕。谁用谁知道,巴扎嘿!
补充:有人问为什么网上说虚拟现实头晕是因为帧率不够原因?
帧率和延时虽然是目前的主要问题,但都不是太大的问题,也不是导致晕得决定性因素。这些问题用更快的显卡,好的 IMU 和好的屏幕,还有头部动作预测算法都能很好解决。我们要关心一些本质的晕眩问题。
这里要说到虚拟现实和增强现实的不同。
虚拟现实中,使用者是看不到现实世界的,头晕往往是因为人类感知重力和加速度的内耳半规管感受到的运动和视觉看到的运动不匹配导致的。所以虚拟现实的游戏,往往会有晕车想吐的感觉。这个问题的解决不是靠单一设备可以搞定的,如果使用者的确坐在原定不动,如果图像在高速移动,什么装置能骗过你的内耳半规管呢?一些市场上的方案,比如 Omni VR,或者 HTC Vive 这样的带 Tracking 的 VR 系统让你实际行走才解决这个不匹配的问题,但这类系统是受场地限制的。不过 THE VOID 的应用就很好的利用了 VR 的局限,不一定要跑跳,可以用很小的空间做很大的场景,让你以为你在一个大场景里就好了。现在大部分虚拟现实的体验或全景电影都会以比较慢得速度移动视角,否则你就吐了。
但是 Magic Leap 是 AR 增强现实,因为本来就看的到现实世界,所以不存在这个内耳半规管感知不匹配的问题。对于 AR 来讲,主要挑战是在解决眼前投影的物体和现实物体的锐度变化的问题。所以 Magic Leap 给出的解决方案是很好的解决这个问题的。但都是理论上的,至于实际工程能力怎么样就靠时间来证明了。
Q3. 为什么要有头戴式显示器?为什么不能裸眼全息?Magic Leap 是怎么实现的?
人类希望能凭空看到一个虚拟物体,已经想了几百年了。各种科幻电影里也出现了很多在空气中的全息影像。
但其实想想本质就知道,这事从物理上很难实现的:纯空气中没有可以反射或折射光的介质。显示东西最重要的是介质。很多微信上的疯传,以为 Magic Leap 不需要眼镜,我估计是翻译错误导致的,视频中写了 Shot directly through Magic Leap tech.,很多文章错误的翻译成” 直接看到” 或” 裸眼全息”,其实视频是相机透过 Magic Leap 的技术拍的。
目前全息基本还停留在全息胶片的时代(如下图,我在光场研讨会上看到的这个全息胶片的小佛像),或者初音未来演唱会那种用投影阵列向特殊玻璃(只显示某一特定角度的图像,而忽略其他角度的光线)做的伪全息。
查看原图
Magic Leap 想实现的是把整个世界变成你的桌面这样的愿景。所以与其在世界各个地方造初音未来那样的 3D全息透明屏做介质或弄个全息胶片,还不如直接从人眼入手,直接在眼前投入整个光场更容易。其实 Nvidia也在做这种光场眼镜,Nvidia 采用的方法是在一个二维显示器前加上一个微镜头阵列 Microlens array 来生成 4 维光场。相当于把 2 维的像素映射成 4 维,自然分辨率不会高,所以这类光场显示器或相机(Lytro)的分辨率都不会高。本人亲测,效果基本就是在看马赛克画风的图案。
而 Magic Leap 采用完全不同的一个方法实现光场显示,它采用光纤投影。不过,Magic Leap 用的光纤投影的方式也不是什么新东西。在 Magic Leap 做光纤投影显示 ( Fiber optic projector) 的人是 Brian Schowengerdt ,他的导师是来自华盛顿大学的教授 Eric Seibel,致力于做超高分辨率光纤内窥镜 8年 了。简单原理就是光纤束在一个 1mm 直径管道内高速旋转,改变旋转的方向,然后就可以扫描一个较大的范围。Magic Leap 的创始人比较聪明的地方,是找到这些做高分辨率光纤扫描仪的,由于光的可逆性,倒过来就能做一个高分辨率投影仪。如图,他们 6年 前的论文,1mm 宽 9mm 长的光纤就能投射几寸大的高清蝴蝶图像。现在的技术估计早就超过那个时候了。
而这样的光纤高分辨率投影仪还不能还原光场,需要在光纤的另一端放上一个微镜头阵列 microlens array,来生成 4 维光场。你会疑问这不就和 Nvidia 的方法一样了么?不,因为光纤束是扫描性的旋转,这个microlens array 不用做的很密很大,只要显示扫描到的区域就好了。相当与把大量数据在时间轴上分布开了,和通讯中的分时一样,因为人眼很难分辨 100 帧上的变化,只要扫描帧率够高,人眼就分辨不出显示器是否旋转显示的。所以 Magic Leap 的设备可以很小,分辨率可以很高。
查看原图
他本人也来 Stanford 给过一个 Talk,Near-to-Eye Volumetric 3D Displays using Scanned Light。这个Talk 讲的应该就是 Magic Leap 早期的原型。
=== 感知部分 ===
Q4. 首先为什么增强现实要有感知部分?
是因为设备需要知道自己在现实世界的位置(定位),和现实世界的三维结构(地图构建),才能够在显示器中的正确位置摆放上虚拟物体。举个最近的 Magic Leap Demo 视频的例子,比如桌子上有一个虚拟的太阳系,设备佩戴者的头移动得时候,太阳系还呆在原地,这就需要设备实时的知道观看者视角的精确位置和方向,才能反算出应该在什么位置显示图像。同时,可以看到桌面上还有太阳的反光,这就要做到设备知道桌子的三维结构和表面信息,才能正确的投射一个叠加影像在桌子的影像层上。难点是如何做到整个感知部分的实时计算,才能让设备穿戴者感觉不到延时。如果定位有延时,佩戴者会产生晕眩,并且虚拟物体在屏幕上漂移会显得非常的虚假,所谓 Magic Leap 宣称的电影级的真实(Cinematic Reality)就没有意义了。
查看原图
(下面是本文的重点技术SLAM)
三维感知部分并不是什么新东西,计算机视觉或机器人学中的 SLAM(Simultaneous Localization And Mapping,即时定位与地图构建)就是做这个的,已经有 30年 的历史了。设备通过各种传感器(激光雷达,光学摄像头,深度摄像头,惯性传感器)的融合将得出设备自己在三位空间中的精确位置,同时又能将周围的三位空间实时重建。
最近 SLAM 技术尤其火爆,去年到今年两年时间内巨头们和风投收购和布局了超级多做空间定位技术的公司。因为目前最牛逼的 3 大科技技术趋势:无人车,虚拟现实,无人机,他们都离不开空间定位。SLAM 是完成这些伟大项目基础中的基础。我也研究 SLAM 技术,所以接触的比较多,为了方便大家了解这个领域,这里简单提几个 SLAM 界最近的大事件和人物:
1. (无人车)Stanford 的机器人教授 Sebastian Thrun 是现代 SLAM 技术的开创者,自从赢了 DARPA Grand Challenge 的无人车大赛后,去了 Google 造无人车了。SLAM 学术圈的大部分研究派系都是Sebastian 徒子徒孙。
2. (无人车)Uber 在今年拿下了卡耐基梅隆 CMU 的 NREC(国家机器人工程研发中心),合作成立高等技术研发中心 ATC。 这些原来做火星车的定位技术的研究人员都去 Uber ATC 做无人车了。
3. (虚拟现实)最近 Surreal Vision 被 Oculus Rift 收购,其中创始人 Richard Newcombe 是大名鼎鼎的 DTAM,KinectFusion(HoloLens 的核心技术)的发明人。Oculus Rift 还在去年收购了 13th Labs(在手机上做 SLAM 的公司)。
4.(虚拟现实)Google Project Tango 今年发布世界上第一台到手就用的商业化 SLAM 功能的平板。Apple五月收购 Metaio AR,Metaio AR 的 SLAM 很早就用在了 AR 的 app 上了。Intel 发布 Real Sense,一个可以做 SLAM 的深度摄像头,在 CES 上 Demo 了无人机自动壁障功能和自动巡线功能。
5. (无人机)由原来做 Google X Project Wing 无人机的创始人 MIT 机器人大牛 Nicholas Roy 的学生Adam Bry 创办的 Skydio,得到 A16z 的两千万估值的投资,挖来了 Georgia Tech 的 SLAM 大牛教授Frank Dellaert 做他们的首席科学家。
SLAM 作为一种系统耦合度高的核心基础技术,其实全世界做 SLAM 或传感器融合做的好的大牛可能不会多于 100 人,并且大都互相认识。这么多大公司抢这么点人,竞争激烈程度可想而知,所以 Magic Leap 作为一个创业公司一定要融个大资,才能和大公司抢人才资源。
Q5. Magic Leap 的感知部分的技术是怎么样的?
这张照片是 Gary 教授在 Magic Leap Stanford 招聘会中展示了 Magic Leap 在感知部分的技术架构和技术路线。可以看到以 Calibration 为中心,展开成了 4 支不同的计算机视觉技术栈。
查看原图
1. 从图上看,整个 Magic Leap 感知部分的核心步骤是 Calibration(图像或传感器校准),因为像 Magic Leap 或 Hololens 这类主动定位的设备,在设备上有各种用于定位的摄像头和传感器, 摄像头的参数和摄像头之间关系参数的校准是开始一切工作的第一步。这步如果摄像头和传感器参数都不准,后面的定位都是无稽之谈。从事过计算机视觉技术的都知道,传统的校验部分相当花时间,需要用摄像头拍摄 Chess Board,一遍一遍的收集校验用的数据。但 Magic Leap 的 Gary,他们发明了一种新的 Calibration 方法,直接用一个形状奇特的结构体做校正器,摄像头看一遍就完成了校正,极为迅速。这个部分现场不让拍照。
2. 有了 Calibration 部分后,开始最重要的三维感知与定位部分(左下角的技术栈),分为 4 步。
2.1 首先是 Planar Surface Tracking (平面表面跟踪)。大家可以在虚拟太阳系的 Demo 中看到虚拟太阳在桌子上有反光,且这个反光会随着设备佩戴者的移动而改变位置,就像是太阳真的悬在空中发出光源,在桌子表面反射产生的。这就要求设备实时的知道桌子的表面在哪里,并且算出虚拟太阳与平面的关系,才能将太阳的反光的位置算出来,叠在设备佩戴者眼镜相应的位子上,并且深度信息也是正确的。难点在平面检测的实时性和给出平面位置的平滑性(否则反光会有跳变)从 Demo 中可以看出 Magic Leap 在这步上完成的很好。
查看原图
2.2 然后是 Sparse SLAM(稀疏 SLAM); Gary 在 Info Session 上展示了他们实时的三维重构与定位算法。为了算法的实时性,他们先实现了高速的稀疏或半稀疏的三维定位算法。从效果上看,和目前开源的 LSD算法差不了太多。
2.3 接着是 Sensors; Vision and IMU(视觉和惯性传感器融合 )。
导弹一般是用纯惯性传感器做主动定位,但同样的方法不能用于民用级的低精度惯性传感器,二次积分后一定会漂移。而光靠视觉做主动定位,视觉部分的处理速度不高,且容易被遮档,定位鲁棒性不高。将视觉和惯性传感器融合是最近几年非常流行的做法。
举例:
Google Tango 在这方面就是做 IMU 和深度摄像头的融合,做的很好;大疆的无人机 Phantom 3 或 Inspire 1 将光流单目相机和无人机内的惯性传感器融合,在无 GPS 的情况下,就能达到非常惊人的稳定悬停;Hololens 可以说在 SLAM 方面是的做的相当好,专门定制了一个芯片做 SLAM,算法据说一脉相承了KinectFusion 的核心,亲自测试感觉定位效果很赞(我可以面对白色无特征的墙壁站和跳,但回到场中心后定位还是很准确的,一点都不飘。)
2.4 最后是 3D Mapping and Dense SLAM (3D 地图重建 )。下图展示了 Magic Leap 山景城办公室的 3D地图重建:仅仅是带着设备走了一圈,就还原了整个办公室的 3D 地图,并且有很精致的贴图。书架上的书都能重建的不变形。
因为 AR 的交互是全新的领域,为了让人能够顺利的和虚拟世界交互,基于机器视觉的识别和跟踪算法成了重中之重。全新人机交互体验部分需要大量的技术储备做支持。
接下来的三个分支,Gary 没有细讲,但是可以看出他们的布局。我就随便加点注解,帮助大家理解。
3.1 Crowdsourcing 众包。用于收集数据,用于之后的机器学习工作,要构建一个合理的反馈学习机制,动态的增量式的收集数据。
3.2 Machine Learning & Deep Learning 机器学习与深度学习。需要搭建机器学习算法架构,用于之后的识别算法的生产。
3.3 Scenic Object Recognition 场景物体识别。识别场景中的物体,分辨物体的种类,和特征,用于做出更好的交互。比如你看到一个小狗的时候,会识别出来,然后系统可以把狗狗 p 成个狗型怪兽,你就可以直接打怪了。
3.4 Behavior Recognition 行为识别 。识别场景中的人或物的行为,比如跑还是跳,走还是坐,可能用于更加动态的游戏交互。顺便提一下,国内有家 Stanford 校友办的叫格林深瞳的公司也在做这个方面的研究。
跟踪方面
4.1 Gesture Recognition 手势识别。用于交互,其实每个 AR/VR 公司都在做这方面的技术储备。
4.2 Object Tracking 物体追踪。这个技术非常重要,比如 Magic Leap 的手捧大象的 Demo,至少你要知道你的手的三维位置信息,实时 Tracking,才能把大象放到正确的位子。
4.3 3D Scanning 三维扫描。能够将现实物体,虚拟化。比如你拿起一个艺术品,通过三维扫描,远处的用户就能够在虚拟世界分享把玩同样的物体。
4.4 Human Tracking 人体追踪。比如:可以将现实中的每个人物,头上可以加个血条,能力点之类。
5.1 Eye Tracking 眼动跟踪。Gary 解释说,虽然 Magic Leap 的呈像不需要眼动跟踪,但因为要计算 4 维光场,Magic Leap 的渲染计算量巨大。如果做了眼动跟踪后,就可以减少 3D 引擎的物体渲染和场景渲染的压力,是一个优化的绝佳策略。
5.2 Emotion Recognition 情感识别。如果 Magic Leap 要做一个 Her 电影中描绘的人工智能操作系统,识别主人得情感,可以做出贴心的情感陪护效果。
5.3 Biometrics 生物识别。比如要识别现实场景中的人,在每个人头上显示个名字啥的。人脸识别是其中一种,国内有家清华姚班师兄弟们开得公司 Face++ 就是干这个干的最好的。
总结,简单来讲感知这个部分 Magic Leap 其实和很多其他的公司大同小异,虽然有了 Gary 的加盟,野心非常的宽广,但这部分竞争非常激烈。
Q6: 就算 Magic Leap 已经搞定了感知和显示,那么接下来的困难是什么?
1. 计算设备与计算量。
Magic Leap 要计算 4 维光场,计算量惊人。不知道 Magic Leap 现在是怎么解决的。如果 Nvidia 不给造牛逼的移动显卡怎么办?难道自己造专用电路?背着 4 块泰坦 X 上路可不是闹着玩的。
今年我参加 SIGGraph 2015 里,其中一个 VR 演示,每个人背着个大电脑包玩 VR。10年 后的人类看今天的人类追求 VR 会不会觉得很好笑,哈哈。
揭秘:连戴 16 小时不会晕的 Magic Leap,是怎么在你脑海里打造一艘宇宙飞船的
2. 电池! 电池! 电池! 所有电子设备的痛。
3. 一个操作系统。说实话,如果说 “世界就是你的新桌面” 是他们的愿景,现在的确没有什么操作系统可以支持 Magic Leap 愿景下的交互。他们必须自己发明轮子。
4. 为虚拟物体交互体验增加物理感受。为了能有触感,现在交互手套,交互手柄都是 VR 界大热的话题。
本文很长,但是细细读下来,重点就是文章的标题了,SLAM技术,说到底就是图形图像识别(机器视觉)、图形图像传感器和实时三维建模技术,掌握了这些技术,以后的VR、AR的沉浸感会大幅度提高的!
A股中与SLAM技术相关的龙头公司莫过于中科院旗下的奥普光电002338了,其机器视觉:http://ircs.p5w.net/ircs/interaction/viewQuestion.do?questionId=3923981 …
查看原图
其图形图像传感器:http://www.guancha.cn:8080/Science/2015_11_12_341064.shtml …
http://www.gpixelinc.com/index.php?s=/a/6.html …
定位、建模、整套的类VR头盔
http://irm.cninfo.com.cn/ircs/interaction/viewQuestion.do?questionId=4620592 …
查看原图
公司是长春光机所旗下唯一的上市公司,大股东长春光机所是中科院规模最大的研究所,也是我国光电领域成立最早的研究所,被誉为”中国光学的摇篮”。成立 57 年来,该所培养了包括 21名中国科学院和中国工程学院院士在内的 2,000 多名光机电领域高级人才,取得了包括两项国家科技进步特等奖在内的 2,100 多项科研成果,在我国光电科技领域可谓举足轻重。
除了奥普光电之外,就是大恒科技600288旗下的大恒图像,网址大恒图像-机器视觉专家
成立于1991年的大恒图像是中国首屈一指的专注于视觉部件、视觉系统及互联网医疗相关产品研发、生产和营销的高科技企业。
VR技术不会影响,交通技术会,无人驾驶有可能。睡着也能在路上,那么完全可以晚上在车上休息啊。
这让我想起了现实版的无限月读
在一个荒无人烟的山区,我戴个VR/AR头盔遥控下无人机把医生从大城市运过里给我抽血化验?
跟房价没有任何关系,假如民众投资无人机或者VR的热情有投资房地产那么热情的话,那或许能影响房价,但是少年,不可能抱着一架无人机过日子吧?
===========我是分割线==========
看完各位高人的回答,以上写的确实很潦草,不抖机灵对不起几个点赞的知友啊,后更
Justin Liu 写得非常好,我也一直在思考这样的问题。
其实新的技术革命已经在改变我们的生活,发达国家的无人工厂越来越多的投入使用,目前只需要极少的人工就可维持工厂的运营,如果无人驾驶和VR/AR技术成熟,无人工厂完全可以实现真正的无人工厂,即使需要人工干预也可以远程实施。
大城市的服务业岗位大量削减,物流行业不用说了,大量的实体店铺现在已经被网络购物影响,VR/AR技术将使绝大多数的工作远程化,人们无需去集中地点工作。
在线教育未来得到极大发展,学校的师资水平差异会越来越小,小班化,老师类似于辅导员。
远程医疗将成为主流,医学检验,确诊,手术都可远程。
淘宝京东改变我们的购物习惯只用了十几年时间,下一个二十年将会改变什么呢?
物联网吧,可能医学需要的数据在家里就可以采集,交流的是数据吧,如果发展的快,十年内远程手术也可以实现。城市空间的关系,将被数据的传送打破。数学上的拓扑,两点的距离已经失去意义。