产品中心

ayx爱游戏手机版:【长期主义】第375期智能说:李飞飞最新长文没有空间智能AI 永远没办法真正理解世界

来源:ayx爱游戏手机版    发布时间:2026-01-13 03:54:12
ayx爱游戏体育客服:

  取得显著进展,在理解与交互物理世界方面仍存在根本局限,关键在缺乏空间智能,不具备对空间关系、几何结构、物理规律进行理解、推理、创造、行动的能力。空间智能,将彻底改变我们创造与交互现实与虚拟世界的方式,它将重塑叙事、创意、机器人学、科学发现等领域,这是

  From Words to Worlds: Spatial Intelligence is AI’s Next Frontier》。李飞飞详细地理解阅读空间智能是什么,为什么重要,如何构建它,又怎么样去使用它,同时阐述真正的空间智能世界模型必须实现的核心框架,构建具有故事描述者想象力的

  年,当计算机只是自动化算术与简单逻辑时,艾伦・图灵提出至今仍余音不绝的问题,机器是否能思考。图灵拥有非凡的想象力,看到超越时代的可能,智能或许可以被构建,而非诞生。这一洞见,开启持久而伟大的

  AI研究25年后今天,图灵的愿景仍让我心怀敬意与灵感。我们走到哪一步,答案并不简单。

  LLM为代表的前沿AI技术,慢慢的开始改变我们获取与运用抽象知识的方式。它们依然像黑暗中的文匠,能言善辩、缺乏经验,知识丰富、脱离现实。空间智能,将彻底改变我们创造与交互现实与虚拟世界的方式,它将重塑叙事、创意、机器人学、科学发现等领域,这正是

  AI的下一个前沿。自我踏入这一领域以来,对视觉与空间智能的追求,一直是我心中的北极星。这也是我花费多年时间,创建

  ImageNet的原因,这是首个大规模视觉学习与评测数据集,与神经网络算法、现代计算(如图形处理器GPU)一道,构成现代AI诞生的三大基石。这也是怎么回事我的斯坦福实验室在过去

  10年中,持续探索将计算机视觉与机器人学习相结合。这一追求,也促使我与合伙人

  Justin Johnson、Christoph Lassner、Ben Mildenhall共同创立World Labs,在1年多前,我们立志首次将这一愿景彻底实现。我将阐述什么是空间智能、为何重要、我们如何构建能释放空间智能潜力的世界模型,这种能力将深刻影响创造力、具身智能与人类的未来进步。

  AI模型,例如大语言模型LLM,已经从研究实验室走入日常生活,成为数十亿人创造、工作、沟通的工具。它们展现出曾被认为不可能的能力,能够轻松生成连贯的文本、海量的代码、逼真的图像,甚至短视频片段。如今,问题已不再是

  自主机器人的愿景依旧令人神往,依然停留在推测阶段,离未来学家长期描绘的日常现实仍有距离。

  AI,无论是学习分子化学复杂概念的学生、构思空间的建筑师、构建世界的电影创作者,还是渴望沉浸式虚拟体验的任何人,这一承诺仍未兑现。要理解这些能力为何依然难以实现,我们应该回溯空间智能的演化历程,审视它如何塑造我们对世界的理解。

  早在动物学会筑巢、照料幼崽、用语言交流或建立文明之前,最简单的感知行为,便悄然点燃一场通向智能的进化旅程。这种看似孤立的能力,从外部世界中提取信息,无论是一道微光,还是一种触感,在感知与生存之间搭起一座桥梁,随着世代更迭,不断加固、延展。

  神经元层层叠加,沿着这座桥梁生长,形成能解释世界、协调生物体与环境互动的神经系统。

  正因如此,许多科学家推测,感知与行动,构成驱动智能演化的核心循环,也成为自然创造人类这一物种的根基,一种集感知、学习、思考、行动于一体的终极体现。

  。每天,我们都依赖它完成最平常的行为,停车时通过想象车尾与路缘之间逐渐缩小的间隙来判断距离;接住被人扔来的钥匙;在人群密集的人行道上穿行、而不相撞;或者在半睡半醒间,不看杯子也能准确把咖啡倒进去。

  更极端情境中,消防员在浓烟弥漫、结构不断坍塌的建筑中穿行,瞬间判断稳定与危险,依靠手势、身体语言、一种无法用言语表达的职业直觉进行协作。

  婴儿在还未学会说话的数月、甚至数年中,正是通过与环境的嬉戏互动来认识世界。

  。讲故事的人,在脑海中构建独特、丰富的世界,借助各种视觉媒介将其传达给他人,从史前洞穴壁画,到现代电影,再到沉浸式电子游戏。

  无论是孩子在沙滩上筑起沙堡,还是他们在电脑上玩《我的世界》所创造的空间,这种基于空间的想象力,构成现实与虚拟世界中交互体验的核心。

  在众多行业应用中,对物体、场景、动态交互环境的模拟,正支撑从工业设计、到数字孪生、再到机器人训练的无数关键业务场景。

  古希腊,埃拉托色尼,通过几何化阴影,来揭示地球尺度,他在亚历山大测量出七度的日影角度,并在太阳直射、影子消失的赛恩作对比,计算出地球周长。

  哈格里夫斯,通过一个空间构想,发明珍妮纺纱机,将多个纺锤并列在同一架构中,使一个工人能够同时纺出多股纱线,生产效率提升

  8倍。沃森与克里克,通过亲手搭建三维分子模型、不断调整金属板与铁丝位置,最终发现

  DNA双螺旋结构。当科学家与发明家需要操纵物体、想象结构、推理空间关系时,正是空间智能,推动人类文明跃进,这些都无法仅凭文字所捕捉。

  。无论我们是被动观察,还是主动创造,它都在发挥作用。它驱动我们推理与规划,哪怕是在最抽象的思维领域;它也是我们与他人、与环境进行互动,无论通过语言、还是行动,所必不可少的能力。

  我们大多数人不会像埃拉托色尼那样揭示新的宇宙真理,我们几乎每天都以相似方式思考,通过感官理解复杂的世界,凭借对物理与空间规律的直觉掌握,形成认知与判断。

  AI取得巨大进步。多模态大语言模型MLLM在文本之外,引入海量多媒体数据,使AI具备初步空间感知能力。如今,

  AI已经能够分析图像、回答有关问题,生成高度逼真的图片与短视频。借助传感器与触觉技术突破,最先进的机器人开始能够在高度受限的环境中操纵物体与工具。AI

  空间能力,仍与人类相距甚远,这一差距显而易见。最先进的多模态模型,在估算距离、方向、大小等任务上,表现往往仅略高于随机水平;在心智旋转,从不同角度重新生成物体的测试中,也极为有限。

  人类对世界的理解是整体性的,不仅关乎我们看见什么,包括事物在空间上的关系、它们的意义、彼此的关联。

  通过想象、推理、创造、互动来理解世界,而非仅依赖语言描述,这正是空间智能的力量

  AI就与它试图理解的物理现实脱节,无法真正安全高效驾驶汽车、引导家庭或医院中的机器人,难以实现学习与娱乐中沉浸式互动体验,更无法加速材料科学与医学中突破性发现。哲学家维特根斯坦曾说,我语言的界限,意味着我世界的界限。

  AI而言,世界远不止语言本身。空间智能,代表超越语言的前沿,它连接想象、感知、行动,开启机器真正赋能人类生活的可能,从医疗、到创造力,从科学发现、到日常助理

  AI,通往那样的模型之路是怎样,它不仅能像埃拉托色尼进行空间推理,像工业设计师精准构造,像讲故事的人富于想象,还能像应急救援人员自然与环境互动。要实现空间智能,我们应该的远不止

  LLM那样的体系,是更具雄心的世界模型,一种新型生成式模型,能够在语义、物理、几何、动态等多重复杂世界,无论虚拟、还是现实中,进行理解、推理、生成、交互。这一领域处在萌芽阶段,当前研究方法,从抽象推理模型、到视频生成系统皆有涉及。

  World Labs是在这一信念之上,2024年初创立,即世界模型的基础方法尚在确立之中,这是未来10年AI的关键挑战所在。这一新兴领域中,最重要的是确立指导发展的基本原则。

  、生成性:世界模型能够生成在感知、几何、物理层面保持一致的世界。要解锁空间理解与推理能力,世界模型一定要能生成属于自身个人的模拟世界。

  它需要具备创造出无限多样虚拟世界的能力,这些世界一定要遵循语义或感知层面指令,同时在几何、物理、动态层面保持一致性,无论这些世界对应的是现实空间、还是虚拟空间。研究界目前正积极探索这些世界的内部几何结构,应当以隐式、还是显式的方式表示。

  除此之外,我认为,除了强大的潜在表征之外,一个通用的世界模型,一定要能生成明确、可观测的世界状态,以适配不同应用场景。

  尤其重要的是,它对当前世界的理解,必须与过去保持连贯,与导致这一现状的先前世界状态相一致。

  、多模态性:世界模型在设计上即是多模态。如动物与人类一样,世界模型应可处理多种形式的输入,在生成式

  AI中,通常被称为提示词。当输入信息不完整时,无论是图像、视频、深度图、文本指令、手势、动作,世界模型都应能够预测或生成尽可能完整的世界状态。

  这样的能力,使得智能体与人类,可以通过多样化输入方式,与模型就世界进行交流,获得多样化的输出反馈。

  /或目标,变成全球模型的输入提示时,输出必须包括世界的下一个状态,可以是隐式,也可以是显式。当输入仅包含一个动作,或者包含动作与目标状态时,世界模型应能生成与先前世界状态、预期目标若有、语义含义、物理规律、动态行为相一致的输出。

  随着空间智能世界模型在推理与生成能力上慢慢地加强,可以想见,某些情况下,模型不仅能预测世界下一状态,还能基于这一新状态,进一步预测实现目标所需的下一步行动。

  AI以往所面对的一切。语言只是人类认知中一种纯粹的生成现象,世界遵循远为复杂的规律。

  在地球上,重力主宰运动,原子结构决定光怎么样产生色彩与亮度,无数物理定律约束每一次交互。

  即便是最奇幻、最具创造力的世界,构成的空间物体与行动主体,都必须要服从特定的物理法则与动态行为。

  要在语义、几何、动态、物理层面,实现一致的统一与协调,需要全新的技术与理论路径。

  相较语言这样一维、顺序性的信号,对世界的表征,在维度与复杂度上要庞大得多。

  World Labs,我们研究团队正致力在这一目标上取得根本性进展。以下是我们当前一些研究方向。

  LLM中的下一Token预测那样简洁优雅的通用任务函数,一直是该领域的核心目标之一。世界模型在输入与输出空间上的复杂性,使得这种函数的构建本身极具挑战。

  仍有大量未知有待探索,这种目标函数及其对应的表征方式,一定要能反映几何与物理规律,体现世界模型作为联结想象与现实的基础性表征体系的本质特征。

  好消息是,大规模数据源已经存在。互联网上海量图像与视频,提供丰富、可获取的训练材料,真正挑战在于如何研发能够从二维图像或视频帧(即

  10年研究表明,在语言模型中,数据量与模型规模之间有明确Scaling Laws;对世界模型,重点是构建能够在相似规模上,充分的利用现有视觉数据的架构。高质量的合成数据,诸如深度信息与触觉信息等额外模态,也将在训练过程中的关键阶段发挥重要作用。

  要实现这一目标,我们仍需更先进的传感系统、更稳健的信号提取算法、更强大的神经模拟方法。

  、新型模型架构与表征学习。世界模型的研究,将不可避免推动模型架构与学习算法的革新,尤其是在超越当前

  MLLM与视频扩散模型范式的方向上。现有方法,通常将数据离散化为一维或二维序列,这使得一些简单的空间任务,变得不必要的困难,比如统计短视频中独特的椅子数量,或记住一个房间

  1小时前的样子。替代性架构可能带来突破,例如具备三维或四维感知能力的分词、上下文、记忆机制。

  为例,我们最近开发的实时生成帧模型RTFM(Real-Time Frame-based Model)体现这一方向转变。它将空间锚定的帧,作为一种空间记忆形式,在保持生成世界连续性与一致性同时,实现高效的实时生成。

  在通过世界模型彻底释放空间智能之前,我们面临艰巨的挑战。这项研究不仅是理论探索,它将成为新一代创造力与生产力工具的核心引擎。

  World Labs的最新进展令人振奋,我们近日首次向少量用户展示的早期成果,这是首个可以通过多模态输入进行提示,生成、维持一致性三维环境的世界模型。用户与创作者可在其中探索、交互,在创作流程中,继续扩展这一虚拟世界。

  只是我们迈向真正具备空间智能的世界模型的第一步。随着研究不断加速,更多科学家、工程师、用户、商业领袖,开始意识到它所蕴含的巨大潜能。

  AI时代到来的一名科学家,我的初心始终清晰,AI应当增强人类能力,而非取而代之。多年来,我一直致力让

  AI研发、应用、治理,与人类需求保持一致。如今,关于科技乌托邦或末日论的极端叙事层出不穷,我依然坚持更务实的观点,

  AI由人类创造、由人类使用、也应由人类治理,它必须始终尊重人的自主性与尊严。AI

  真正魅力,在于扩展我们能力,使我们变得更富有创造力、更加紧密相连、更高效、更有成就感。空间智能正是这种愿景的体现,一种能让创作者、照护者、科学家、梦想家实现曾经不可能之事的

  World Labs的Marble,已经让创作者与讲述者,能够直接掌握这些能力。机器人学,代表中期雄心目标,我们逐渐完备感知与行动之间闭环。

  最具变革性的科学应用,可能需更长时间,它们有望对人类繁荣,产生深远影响。

  纵观这些不同阶段,有几个领域格外需要我们来关注,它们最有潜力重塑人类能力。要实现这一愿景,需要集体的巨大努力,远超任何一个团队或公司的能力范围。

  AI生态系统的共同参与,研究者、创新者、企业家、公司,乃至政策制定者,都必须携手朝着共同的愿景前进。这一愿景,可以让我们全力以赴。接下来,让我们一起看看这个未来,将带来什么。

  创造力是智力在享受乐趣,这是我最喜爱的名言之一,出自我的精神偶像阿尔伯特・爱因斯坦。

  早在文字出现之前,人类已经在讲述故事,他们将故事绘在洞穴石壁上,口耳相传,代代延续,以共同的叙事建构出整个文化。

  故事是人类理解世界的方式,是跨越时空的纽带,是我们探索何为人的途径,更是我们在生命与爱中寻找意义的核心。

  如今,空间智能有潜力彻底改变我们创造与体验故事的方式,不仅尊重叙事本身的根本价值,更将影响力从娱乐延展到教育,从设计延伸到建筑,让创造与体验的边界,得到全新拓展。

  的Marble平台,把前所未有的空间创造力与编辑控制力,交到电影制作人、游戏设计师、建筑师、各类叙事创作者手中,使他们可以快速创建、迭代可自由探索的三维世界,无需承担传统3D设计软件所带来的复杂成本。创作行为依然保持独特的人性与活力,

  AI工具只是放大、加速创作者能够实现的潜能,这包括:新维度中、展开叙事体验:

  电影制作人与游戏设计师,正在利用Marble创造完整的世界,不再受制预算或地理限制,他们得以探索传统制作流程中难以企及的场景与视角。随着不同媒介与娱乐形式之间界限逐渐模糊,我们迈向全新的交互体验形态,艺术、模拟与游戏的融合体。

  在这些个性化世界中,不仅是大型工作室,任何人都可以创造、居住在属于自己的故事里。

  随着从概念与分镜、到完整体验的生成过程,变得更加快捷高效,叙事将不再局限单一媒介,创作者可以自由在多种平台与载体间,构建互相关联的世界与故事线。

  几乎所有的制造物与建筑空间,在被实体化之前,都必须先在虚拟三维世界中完成设计。这一过程迭代频繁,在时间与成本上代价高昂。

  借助具备空间智能的模型,建筑师可以在动工之前,快速可视化建筑结构,甚至漫步尚未存在的空间中,以一种讲故事的方式,探索人类未来的生活、工作、聚会方式。

  工业设计师与时尚设计师,能瞬间将想象转化为形态,直观探索物体与人体、空间之间的关系。

  体验本身,是人类创造意义最深层的方式之一。漫长的人类历史中,我们共享的唯一三维世界是物理世界。

  VR、XR头显、沉浸式显示设备等新形态,将这种体验,提升到前所未有的高度。我们正迈向一个时代,走进完全实现的多维世界,将如同打开一本书般自然。

  空间智能,让造世界的能力,不再只是专业团队与大型工作室的特权,是向个人创作者、教育者、任何怀抱想象的人开放。

  机器人也将如此,自这一领域诞生以来,具备空间感知能力的机器,一直是终极目标,这包括我与斯坦福实验室学生与合作伙伴多年来的研究工作。

  World Labs在构建的世界模型充满期待的原因之一,它们有望真正让这一愿景成为现实。通过世界模型,扩展机器人的学习能力:

  鉴于机器人在理解、推理、规划、交互中所面对的庞大状态空间,许多研究者推测,只有结合互联网数据、合成仿真、人类演示的真实捕获,才能真正培育出具备泛化能力的机器人。

  与语言模型不同,目前机器人研究的数据极其匮乏,世界模型将在此发挥决定性作用。

  随着感知精度与计算效率提升,世界模型的输出,能快速缩小模拟与现实间的差距,帮助机器人在无数状态、交互、环境的仿真中进行训练。

  作为人类协作者,无论是在实验台前协助科学家,还是陪伴独居长者,机器人都能在劳动力与生产力极度紧缺的领域中提供支持。

  要做到这一点,它们一定要具有空间智能,既能感知、推理、规划、行动,又能保持对人类目标与行为的情感共鸣与理解,这点最为重要。

  例如,实验室中,机器人能代替科学家操作仪器,让人类专注更需要灵巧与推理的任务;家庭中,助理机器人能帮助老人烹饪,而不削减他们自主性与生活乐趣。

  真正具备空间智能的世界模型,能够预测下一状态,甚至推测与之相符的行动,是实现这一目标的关键。

  人形机器人在我们构建的世界中确有角色,创新的全部潜力将来自更为多样的设计形式,如可输送药物的纳米机器人、能穿越狭窄空间的软体机器人、适用深海或外太空的探索型机器。

  无论形态如何,未来的空间智能模型,都必须同时整合机器人所处的环境与自身的感知与运动方式。

  这类机器人发展面临的核心难题,是缺乏适用多种具身形态的训练数据。世界模型将在这一过程中发挥关键作用,它们将为仿真数据的生成、训练环境的构建、评测任务的制定,提供基础支撑。

  AI能够以拯救生命、加速发现等方式,增强人类能力的领域。我将重点谈及三个具有深刻变革潜力的方向,空间智能应用远不止于此,它将在更多行业中展现出广阔前景。

  具备空间智能的系统,能够模拟实验、并行检验假设、探索人类难以到达的环境,从深海到遥远的行星。这项技术,将重塑气候科学、材料研究等领域的计算建模方式。通过将多维度的仿真与真实世界的数据采集相结合,这类工具能够更好的降低计算壁垒,拓展每一个实验室的观察与理解边界。

  空间智能,将从实验室到病房,全面改变医学实践。在斯坦福,我与学生、合作伙伴,多年来与医院、养老机构、家庭患者紧密合作,这段经历让我更加坚信空间智能在医疗中变革潜力。

  空间智能,能够让抽象或复杂的概念,变得可感知、可体验,实现沉浸式学习。它还能创造出与人类大脑、身体学习机制,高度契合的迭代式学习体验。

  时代,更快、更高效的学习与再培训,对学生与成年人都至关重要。学生可以以多维视角探索细胞运作机制,或亲身走入历史事件;教师能借助交互式环境,实现个性化教学;外科医生、工程师等专业技术人员,可在逼真的仿真环境中,安全练习复杂技能。

  AI增强人类专业能力,加速人类发现,放大人类关怀,不是取代构成人之为人的核心品质,判断力、创造力、共情力。结语

  10年,AI已成为全世界现象,成为技术、经济,乃至地理政治学的转折点。作为一名研究者、教育者、如今创业者,真正激励我的,仍然是图灵在

  75年前提出那个问题背后的精神。我依然与他一样,怀抱对智能惊奇与敬畏。这种好奇与挑战的魅力,让我每天都为空间智能的探索,充满动力。

  人类历史上,我们首次有能力构建出与物理世界深度契合的机器,让它们是我们在应对重大挑战时让人信服的伙伴。

  无论是加速我们在实验室中对疾病的理解,革新我们讲述故事的方式,还是在疾病、伤痛或衰老带来的脆弱时刻给予支持,我们站在一项能够提升人类最珍视生活要素的技术门槛上,这是一个让生命更加深刻、更加丰盈、更加有力量的愿景。

  5亿年。我们有幸身处这样一个时代,或许很快,我们将让机器拥有同样能力;更幸运的是,我们也可以将这种能力,用于造福全人类。假如没有空间智能,我们对真正智能机器的梦想,永远无法完整。返回搜狐,查看更加多