明敏 发自 凹非寺,量子位 | 公众号 QbitAI
想体验今年大火的空间计算,不用等苹果了。
喏,手指一捏,空间搜索马上开启,各类内容一下子在眼前铺开。
只需转转头,就能看到更多内容。
眼睛聚焦在哪个卡片上,都能被选中突出。
通过语音即可输入搜索关键字,搜索结果仿佛从远处空间冲过来的一样。
而且感兴趣的内容被会放在最容易被注意的地方。
最后大手一挥,就能关闭界面。
芜湖~把搜索放到3D空间里之后,交互方式、信息排布等,完全不一样了。
界面从小屏扩展成了整个眼前的“幕布”,能放入更多信息。
呈现内容的方式彻底打破了2D局限,不同窗口的空间深度不同,更加直观表示了信息的优先级。
打开界面的方式也更加自然简单,手、头、眼配合即可搞定。
没想到,今年搜索引擎不仅要被AI变革,还要被AR变革。
如上效果,就是由一台AR眼镜+一台AR主机实现的,它们组合之后,开始被称为“空间计算机”,能把计算机的功能放到虚实结合的世界里。
而且它离我们并不遥远,目前已经实现量产,已知发售比Vision Pro更早。
价格嘛,也更加亲民了一些,只需8998元。
不过话说回来,AR眼镜组合AR主机不是新鲜事物了。
为什么这一回,可以称得上是“空间计算机”?
率先实现单摄SLAM交互
如上提到了AR眼镜和AR主机,是一个AR空间计算套组Rokid AR Studio,为Rokid最新发布的新品:
- Rokid Max Pro
- Station Pro
和苹果Vision Pro走的VST(视频透视)路线不同,这台“空间计算机”属于OST(光学透视),简单理解就是能通过眼镜看到真实的现实世界。
Rokid Max Pro是Rokid最新一代AR眼镜,重量为76g,仅有一个摄像头。
其背后计算能力的支持,主要来自Station Pro。
该主机搭载高通第一代骁龙XR2+,相较于骁龙XR2,它能将续航提升50%,散热提升30%。
由此,Station Pro续航能力是手机方案的2倍以上,可以达到厘米级6DoF跟踪精度和极低MTP(Motion to Photon)渲染延迟。
二者结合后,主要关注的便是在空间、计算两方面,带来新体验。
其一是在空间维度力求更加自然的信息交互。
比如现在,抬抬胳膊就能拥有一块电子虚拟手表。
握住拳头,手表就会切换界面,显示天气温度。
而且手表上的信息是立体的,手腕转动后,表盘上的内容随之转动,而且呈现内容也会变成3D模式。
如果放下胳膊,手表就会消失;转动视角,面前的屏幕也不会移动。
这种信息交互呈现方式,不会让人觉得脱离物理世界,好像只是把电脑、手表虚拟化了,感觉更加逼近人们本来的交互习惯。
在游戏场景下,能实现360度全方位沉浸式打怪,捏住手指即可发出攻击。
以及前面提到的空间搜索,一下子把搜索引擎升维,变成了3D的感觉。
所有内容在眼前铺开,通过排布位置、深度信息体现主次。
甚至都不需要鼠标、键盘这些工具了,动动嘴即可开启搜索,转转头和眼睛,就能锁定想找的内容。这些也都是人们日常生活里最自然的交互方式。
其二是在计算维度,Rokid Max Pro+Station Pro确实更像计算机了。
首先在界面显示上,可以支持多个窗口并列排布,但是是3D的,也就是把周围环境都变成桌面。
这样一来,转转头即可看到另一个窗口,也让AR呈现“不再只是一块更大屏幕”。
其次在处理能力上,Station Pro搭载12G RAM+128G ROM,能支持十余个任务并行,几乎和日常在电脑上处理的任务量相当。
最后在续航方面,Rokid Max Pro+Station Pro能实现5-6小时续航,和一台Windows办公本水平相当。
值得一提的是,以上所有效果,都是基于单摄SLAM方案实现,要知道目前业内诸多产品都还是采用双摄、多摄。
创新性地把摄像头数量压缩到仅剩一个,能让AR眼镜的功耗更低、结构更简单、成本更低,由此也能让实际佩戴更加舒适、价格更实惠。
但单目方案也给技术提出更高要求,因为它无法得到绝对的尺度信息,需要通过初始化恢复尺度信息,而初始化的好坏直接影响算法的最终精度。
Rokid利用IMU辅助、滤波算法、SLAM算法等,通过软件方面的加持,最终率先为行业带来了单摄SLAM方案,进而推动行业向前发展。
综上,从空间和计算两个维度出发,Station Pro组合Rokid Max Pro,打破了人们对AR的一些既往认知:只是一块更大的屏幕、交互体验偏传统……
这些效果实现的背后,既得益于底层硬件的能力进阶,也离不开厂商本身对虚实结合、人机交互的深刻理解和尝试。
由此官方直接将Station Pro+Rokid Max Pro定义为一台“空间计算机”。
也标志着在通往空间计算这条路上,VST阵营下的苹果、OST阵营下的Rokid,现在都已交出最新答卷。
此外这次发布也重磅介绍了Rokid和Google的合作:Station(国际版)成为全球首款经谷歌认证的AR版便携式Android TV™设备。
通过Rokid Station(全球版),用户可以在Google Play上下载熟悉的应用和游戏,包括 YouTube、Hulu、Disney+、TVer、AbemaTV等,还有海量沉浸式游戏,轻松上手。用户还可以自己安装APP;此外,它还支持HDCP和云游戏。
这也传递出了一个事实——如今行业正在加码对于AR软件和生态的建设,AR行业进入了软件系统和生态建设的第二阶段。
不过AR硬件作为ToC产品,大众如何理解它非常关键。这几年虽然AR新品层出不穷,但是由于最常见的场景还是观影、游戏等,它暂时还没有被正式归入生产力工具行列。
而在此时此刻直接打出“空间计算机”的概念,更是对大众认知构成挑战。
为什么会这么做?
在这背后,有趋势的直接推动,也有行业本身的发展节奏使然,更有Rokid作为行业引领者长期以来的思考理解。
空间计算机,为什么是现在?
直接原因来自最新趋势。
今年苹果发布Vision Pro,把一个行业内的专业词汇带到了大众面前:
空间计算。
自此,关于AR/MR的想象有了一个更具体的表述,也将AR/MR的终极目标直接刻画出来。
即,将计算能力与物理空间相结合,通过头显设备将数字信息融合到真实世界中,以提供一种更直观、更沉浸式的交互方式,让用户能在现实世界中与数字内容进行互动。
Rokid创始人兼CEO 祝铭明(Misa)非常坦诚地说,苹果做过一轮市场教育以后,对于行业来说是一个时机。
苹果将这一概念抛出去后,我们也可以直接用它来和市场用户沟通。AR本身默认定位就是空间技术、虚实融合,只是今天把背后的技术变成了一个产品描述方式。
坦白讲,这件事也只有苹果能做到。
由此也引出深层原因,行业本身到了拥抱空间计算的阶段。
技术方面,无论是空间、交互还是处理计算层面,目前都发展到了更加成熟的阶段。
比如空间方面,6DoF实现了对头部视野角度变化、身体移动位移变化的精准检测;SLAM则能类比自动驾驶中道路精度地图和车辆空间感知。
交互方面,头动、眼动追踪已是目前顶尖XR设备的标配,眼动追踪的精确度可以达到1度。以及微手势交互的应用也相对成熟。
而在计算处理方面,如高通已推出第一代骁龙XR2+,提升续航和散热能力,支持在更小更轻薄设备中搭载。支持并行感知技术,包括头部、手势和手柄追踪、3D 重建以及低时延视频透视。引入全新图像处理管线,能够实现低于 10 毫秒的时延,能提供更好的透视MR体验。
另外,在软件系统和生态建设方面,AR也已进入第二阶段,也就是更加原生独立的阶段。
所谓第一阶段,是指软件系统和生态更加依赖手机、电脑等传统移动终端。
这一阶段是必然的,因为搭建原生丰富AR的系统和生态无法一蹴而就。
自研操作系统难度系数很大,需要具备全栈式能力。加之AR设备本身就面临功耗、续航、计算性能几方面难平衡的尴尬,给操作系统提出了更高要求。
生态方面的建设则还需要聚集行业及开发者的力量,这更是一个需要积累、摸索的过程。
目前来看,第一阶段已经基本进行完毕。
以Rokid为例,其自研底层操作系统YodaOS-Master,沉淀已有5-6年,并在今年完成最新升级。正是在这一系统的支持下,Station Pro可以实现单摄SLAM、微手势交互、视觉定位VPS等,Rokid Max Pro则可以在计算能力大幅提升的前提下,机身重量仅增加1g。
生态建设方面,Rokid在今年Open Day上发布的AR创作工具灵境,实现了10分钟内建造属于自己的AR数字空间,这是为了吸引更多开发者、创作者来壮大AR内容生态。
目前Rokid UXR 2.0 开放SDK,并支持Unity等OpenXR标准的主流引擎,以及MRTK接口,开发者可以轻松开发移植。
同时,在Master系统里,Rokid还内置了自研JSAR引擎和小组件容器,JS开发者可以轻松上传自己的组件。由此可以更进一步推动行业生态共创。
另外在全行业范围内,大家也对技术变革兴趣浓厚,尤其是科技大厂,在拥抱新技术上的意愿很强烈。比如目前Rokid和阿里巴巴、华为、微软Bing都有深度合作。
所以,对于AR来说是时候大力建设更加独立和原生的系统和生态了。
如何体现这种原生?锚定空间计算。Rokid在系统生态上的建设就是实践案例。
最后在市场方面,AR眼镜已经成为大众普遍接受的一种形态,是时候把AR真正带到人们生活中去了。
AR市场的发展最开始兴起在ToB,行业愿意花一定资金拥抱新技术进行升级,AR行业由此有机会得到真实的市场反馈、不断进行技术迭代。
后面AR开始在观影、游戏等方面打开场景,逐步让消费者接受一个架在眼前的终端设备。
如今这种习惯已经建立,需要将真正的AR引入到用户生活中了。
怎样向用户传递什么是“真正的AR”?空间计算是最好的体现方式之一。
综上多方面原因,也就不难理解为什么行业玩家Rokid会在此刻连发两款新品,并组成一台“空间计算机”。
而且对于空间计算机的定义,Rokid也给出了初步思考,关键在于满足这样几个核心指标。
第一,搭建起和真实世界、用户的自然交互;
第二,展现和处理能力,能够撑起“计算机”的称号;
第三,良好的软件兼容性、生态丰富性。
而随着Rokid“空间计算机”的提出,头显两大发展路线VST和OST,如今都已用实际产品交出最新答卷。
一边是苹果Vision Pro为代表的的VST,另一边是Rokid Max Pro为代表的的OST。
二者在表现形态上不尽相同,但都主打空间计算。
这意味着对于下一阶段的目标,行业已经达成共识;但是在具体实现路径上,尚不能形成定论。
而在这两种不同的技术路线之下,共同构成了对于下一代人机交互的最新理解。
人机交互下一页,OST还是VST?
先来看这两条路径分别是什么。
VST(视频透视),以苹果Vision Pro等为代表。
它利用摄像头等传感器,捕捉真实世界的影像,然后投射到屏幕上,看到的内容都是虚拟重建的。
优点是可以构建一个更加虚拟的世界,效果更加梦幻。
但是这也意味着对硬件、光线要求更高。
如Vision Pro采用多摄像头、双芯片方案,也进一步拉高了头显重量和成本价格。
OST(光学透视),代表产品有Hololens、Rokid Max Pro等。
它可以通过一层玻璃,让人看到的永远是真实世界,在此基础上构建虚拟物品,可以和现实世界产生交互。
它的优点是能让人感受真实的世界,眼镜形式更加轻便。
但在目前底层硬件技术的制约下,也势必需要牺牲性能、续航和散热。而且还需要不断在性能和重量之间做取舍。
目前来看,这两条路线并驾齐驱,都用自己的方式诠释了对空间计算的理解。
从更底层来看,二者对于新一代人机交互方式的理解,有相同之处,也有区别点。
先来看相同点。
二者在初步认知上达成一致,都认为要将数字内容融入到真实空间里。那么就意味着要和真实世界产生交互。
在交互方式上,它们也纷纷选择采用更加接近人类本能的手势操作、眼动、头动,由此和传统二维的人机交互方式彻底分隔开来。
以及在操作系统和内容方面,无论是苹果还是Rokid都一定程度上向2D内容生态兼容,这是为了能让用户更加自然过渡到头显设备场景下。
比如Vision Pro的系统仿佛是iOS、MacOS、iPadOS直接升维后的效果,为了能让用户更快习惯。
Rokid AR Studio也兼容2D生态,如爱奇艺、腾讯视频、哔哩哔哩、优酷、芒果TV、影牛牛、随乐游、无影云电脑等都能在Rokid Station Pro进行使用。其中,无影云电脑为适配3D生态特别定制了空间大屏。其他手机、PAD等移动终端的众多2D安卓应用也可在其中使用。
但相对而言,VST和OST路线之间还是存在诸多差异,从这些差异背后也能窥见二者对于人机交互大命题的不同理解。
其一,在佩戴舒适性和效果呈现的优先级方面,二者选择不同。
苹果显然是将效果呈现更为前置,为此不惜Vision Pro中放入2块芯片、12个摄像头、5个传感器,整个头显重量达到450克,成为限制用户使用时长的一个重要因素。
Rokid始终坚持佩戴舒适优先,Rokid Max Pro的重量仅有76g,可以轻松架在鼻梁上。但这势必会使得眼镜端上算力受限,所以Rokid推出了AR主机的概念,希望以一种中间形态,来缓解目前OST路线面临的困境。
而轻便有限的好处是能拉长用户的使用时长,同时不连接手机使用,可以更好和手机等传统移动终端抢时长,推动AR更进一步走向独立。
据Rokid数据显示,在用户使用Station后,有90%用户都放弃了连接手机的方案。
其二,在生态构建方面,二者走向两条不同的道路。
一直以来苹果都是构建自己的独立生态,它能通过自身强大的软硬件能力,不断加强用户对于产品与产品之间的交互使用体验,并召集大量开发者丰富软件生态。这也是苹果几乎最独特的魅力。
但这也意味着,苹果拿出的技术方案、产品规格,对行业内大部分玩家意义不大。
另一边,以Rokid为代表的OST路线玩家,致力于构建更加开放的生态,联合更多行业力量来共建新标准、新规范。
比如微软HoloLens沉淀下来的MRTK工具包,在几天前正式宣布将独立发展,由此它将成为一个真正的跨平台开源工具包。通过MRTK构建的体验,可以兼容任何支持OpenXR的设备。
以及这一次Rokid最新提出的对于空间计算的思考,也会更新到OpenXR标准中去,供行业参考。这样一来,对于行业标准的定义更新,将由整个行业推动,发展速度将会十分可观。
与此同时,安卓AR开放生态也开始发力。目前通过Rokid Station(全球版),可以在Google Play上下载熟悉的应用和游戏,以及体验Android TV。
无论是共识还是差异,对于当下尚处在发展早期的AR/MR行业而言,都意义深远。
苹果和Rokid,作为VST和OST路线的领军代表,率先给出对空间计算的理解,也使它们成为了当下行业真正意义上的引领者。
未来,二者会继续保持并驾齐驱,还是会走向截然相反的道路,目前还无法给出判断。
但可以确定的是,对AR的终极构想,一定以新一代人机交互为底座。
而它的根本逻辑是什么?
更沉浸虚拟还是更融合现实?更连续还是更碎片化?对于广大用户来说,如何适应从实体交互走向虚拟?如何将自身与虚实相生的世界融合?
这些都是AR行业将会面临的挑战。
总之,空间计算概念走向大众,才只是真实AR世界撕开的第一道裂缝。
接下来的该如何“盲人摸象”,拼凑出终极AR的所有版图,还有很长的路要走。
话说回来,你对实现了空间计算的AR设备有哪些期待?会因为空间计算的实现而想要购入设备吗?希望它能在哪些场景发挥作用?
欢迎评论区留言分享~