互联网的演进历程是从中心化、开放的网络空间,逐步变成去中心化、碎片化的虚拟世界。其中交互技术的不断发展,让传统用户输入和机器输出,升级成结合视频和人工智能(AI)的多元化人机交互,将人与人之间的连接重构成为元宇宙分布式社区中的虚拟关系。虽然面临着诸多挑战,但这一技术趋势无疑将引发网络空间中资源与利益的重新分配。
人与人之间的交互是通过捕捉声音、动作、文字等信号完成信息传输的。自人类发明计算机起,人人交互很大一部分被人机交互所代替。而主流人机交互方式的发展,可大致划分为三个阶段。
第一个阶段是互联网时代。在互联网时代,人机交互主要是通过手指操作鼠标、键盘,眼睛查看显示屏内容完成。为何如此?因为手指是人类完成精细动作最直接的器官,眼睛是能够最大化、直接接收外界信息的五官之一。自然地,人类会选择手指操控鼠标键盘完成人类对机器的输入,眼睛查看显示器内容完成机器对人类的输出。
第二个时代是移动互联网时代。在移动互联网时代,人机交互主要是通过手指操控触摸屏。这种交互技术在全球范围内的第一次大规模商用,始于2007年的苹果手机,至今仍然是所有移动设备的主要交互方式。与第一代交互方式不同,这样的方式回归了人类婴幼儿时期的最基本动作,即用手指在屏幕上指向、点击、滑动,交互设备由触摸屏替代了鼠标、键盘。
完成
在第三代交互方式出现之前,我们需要审视这样一个现象。第一代、第二代交互方式普及时,其他的交互方式(肢体动作、语音、肌电、脑电等),和交互设备(体感摄像头、惯性传感器、智能眼镜、智能手环、智能头盔)也在不断涌现。但这些交互方式往往都因为表达能力受限、准确度不高等问题,始终无法取代手指和眼睛在交互方式中的主导地位。
第三个时代是2021年开始构建的元宇宙时代。在元宇宙时代,现实世界中的人类可以和虚拟世界中的智能体(虚拟人、数字财产、数字物品等)进行交互。在元宇宙构建初期,人类仍然通过手指和眼睛与虚拟世界进行交互,就像在玩一场“身临其境的沉浸式视频游戏”。
与第二代交互方式的区别在于,其交互设备的多样性将得到扩展。例如,摄像头、惯性传感器将捕捉到的人类身体动作、语音等指令展示在视频游戏中,游戏剧情反馈也会通过智能眼镜、智能头盔展示给人类。在不远的未来,当AI技术不断发展,特别是脑机交互技术可以准确读取人脑信息时,人们就可以不通过动作、语音、打字等其他信号发送指令,而可以直接将意念所想传达给设备,解锁AI技术中这一最神秘的难关。因此,交互的终极方式是视频和AI——人类通过AI将指令输入到虚拟世界,同时又通过沉浸式视频展示将交互结果输出给人类。