【长期主义】第375期智能说：李飞飞最新长文没有空间智能AI 永远没办法真正理解世界_ayx爱游戏手机版下载 | 体育app下载安装

ayx爱游戏体育客服:

取得显著进展，在理解与交互物理世界方面仍存在根本局限，关键在缺乏空间智能，不具备对空间关系、几何结构、物理规律进行理解、推理、创造、行动的能力。空间智能，将彻底改变我们创造与交互现实与虚拟世界的方式，它将重塑叙事、创意、机器人学、科学发现等领域，这是

From Words to Worlds: Spatial Intelligence is AI’s Next Frontier》。李飞飞详细地理解阅读空间智能是什么，为什么重要，如何构建它，又怎么样去使用它，同时阐述真正的空间智能世界模型必须实现的核心框架，构建具有故事描述者想象力的

年，当计算机只是自动化算术与简单逻辑时，艾伦・图灵提出至今仍余音不绝的问题，机器是否能思考。图灵拥有非凡的想象力，看到超越时代的可能，智能或许可以被构建，而非诞生。这一洞见，开启持久而伟大的

AI研究25年后今天，图灵的愿景仍让我心怀敬意与灵感。我们走到哪一步，答案并不简单。

LLM为代表的前沿AI技术，慢慢的开始改变我们获取与运用抽象知识的方式。它们依然像黑暗中的文匠，能言善辩、缺乏经验，知识丰富、脱离现实。空间智能，将彻底改变我们创造与交互现实与虚拟世界的方式，它将重塑叙事、创意、机器人学、科学发现等领域，这正是

AI的下一个前沿。自我踏入这一领域以来，对视觉与空间智能的追求，一直是我心中的北极星。这也是我花费多年时间，创建

ImageNet的原因，这是首个大规模视觉学习与评测数据集，与神经网络算法、现代计算（如图形处理器GPU）一道，构成现代AI诞生的三大基石。这也是怎么回事我的斯坦福实验室在过去

10年中，持续探索将计算机视觉与机器人学习相结合。这一追求，也促使我与合伙人

Justin Johnson、Christoph Lassner、Ben Mildenhall共同创立World Labs，在1年多前，我们立志首次将这一愿景彻底实现。我将阐述什么是空间智能、为何重要、我们如何构建能释放空间智能潜力的世界模型，这种能力将深刻影响创造力、具身智能与人类的未来进步。

AI模型，例如大语言模型LLM，已经从研究实验室走入日常生活，成为数十亿人创造、工作、沟通的工具。它们展现出曾被认为不可能的能力，能够轻松生成连贯的文本、海量的代码、逼真的图像，甚至短视频片段。如今，问题已不再是

自主机器人的愿景依旧令人神往，依然停留在推测阶段，离未来学家长期描绘的日常现实仍有距离。

AI，无论是学习分子化学复杂概念的学生、构思空间的建筑师、构建世界的电影创作者，还是渴望沉浸式虚拟体验的任何人，这一承诺仍未兑现。要理解这些能力为何依然难以实现，我们应该回溯空间智能的演化历程，审视它如何塑造我们对世界的理解。

早在动物学会筑巢、照料幼崽、用语言交流或建立文明之前，最简单的感知行为，便悄然点燃一场通向智能的进化旅程。这种看似孤立的能力，从外部世界中提取信息，无论是一道微光，还是一种触感，在感知与生存之间搭起一座桥梁，随着世代更迭，不断加固、延展。

神经元层层叠加，沿着这座桥梁生长，形成能解释世界、协调生物体与环境互动的神经系统。

正因如此，许多科学家推测，感知与行动，构成驱动智能演化的核心循环，也成为自然创造人类这一物种的根基，一种集感知、学习、思考、行动于一体的终极体现。

。每天，我们都依赖它完成最平常的行为，停车时通过想象车尾与路缘之间逐渐缩小的间隙来判断距离；接住被人扔来的钥匙；在人群密集的人行道上穿行、而不相撞；或者在半睡半醒间，不看杯子也能准确把咖啡倒进去。

更极端情境中，消防员在浓烟弥漫、结构不断坍塌的建筑中穿行，瞬间判断稳定与危险，依靠手势、身体语言、一种无法用言语表达的职业直觉进行协作。

婴儿在还未学会说话的数月、甚至数年中，正是通过与环境的嬉戏互动来认识世界。

。讲故事的人，在脑海中构建独特、丰富的世界，借助各种视觉媒介将其传达给他人，从史前洞穴壁画，到现代电影，再到沉浸式电子游戏。

无论是孩子在沙滩上筑起沙堡，还是他们在电脑上玩《我的世界》所创造的空间，这种基于空间的想象力，构成现实与虚拟世界中交互体验的核心。

在众多行业应用中，对物体、场景、动态交互环境的模拟，正支撑从工业设计、到数字孪生、再到机器人训练的无数关键业务场景。

古希腊，埃拉托色尼，通过几何化阴影，来揭示地球尺度，他在亚历山大测量出七度的日影角度，并在太阳直射、影子消失的赛恩作对比，计算出地球周长。

哈格里夫斯，通过一个空间构想，发明珍妮纺纱机，将多个纺锤并列在同一架构中，使一个工人能够同时纺出多股纱线，生产效率提升

8倍。沃森与克里克，通过亲手搭建三维分子模型、不断调整金属板与铁丝位置，最终发现

DNA双螺旋结构。当科学家与发明家需要操纵物体、想象结构、推理空间关系时，正是空间智能，推动人类文明跃进，这些都无法仅凭文字所捕捉。

。无论我们是被动观察，还是主动创造，它都在发挥作用。它驱动我们推理与规划，哪怕是在最抽象的思维领域；它也是我们与他人、与环境进行互动，无论通过语言、还是行动，所必不可少的能力。

我们大多数人不会像埃拉托色尼那样揭示新的宇宙真理，我们几乎每天都以相似方式思考，通过感官理解复杂的世界，凭借对物理与空间规律的直觉掌握，形成认知与判断。

AI取得巨大进步。多模态大语言模型MLLM在文本之外，引入海量多媒体数据，使AI具备初步空间感知能力。如今，

AI已经能够分析图像、回答有关问题，生成高度逼真的图片与短视频。借助传感器与触觉技术突破，最先进的机器人开始能够在高度受限的环境中操纵物体与工具。AI

空间能力，仍与人类相距甚远，这一差距显而易见。最先进的多模态模型，在估算距离、方向、大小等任务上，表现往往仅略高于随机水平；在心智旋转，从不同角度重新生成物体的测试中，也极为有限。

人类对世界的理解是整体性的，不仅关乎我们看见什么，包括事物在空间上的关系、它们的意义、彼此的关联。

通过想象、推理、创造、互动来理解世界，而非仅依赖语言描述，这正是空间智能的力量

AI就与它试图理解的物理现实脱节，无法真正安全高效驾驶汽车、引导家庭或医院中的机器人，难以实现学习与娱乐中沉浸式互动体验，更无法加速材料科学与医学中突破性发现。哲学家维特根斯坦曾说，我语言的界限，意味着我世界的界限。

AI而言，世界远不止语言本身。空间智能，代表超越语言的前沿，它连接想象、感知、行动，开启机器真正赋能人类生活的可能，从医疗、到创造力，从科学发现、到日常助理

AI，通往那样的模型之路是怎样，它不仅能像埃拉托色尼进行空间推理，像工业设计师精准构造，像讲故事的人富于想象，还能像应急救援人员自然与环境互动。要实现空间智能，我们应该的远不止

LLM那样的体系，是更具雄心的世界模型，一种新型生成式模型，能够在语义、物理、几何、动态等多重复杂世界，无论虚拟、还是现实中，进行理解、推理、生成、交互。这一领域处在萌芽阶段，当前研究方法，从抽象推理模型、到视频生成系统皆有涉及。

World Labs是在这一信念之上，2024年初创立，即世界模型的基础方法尚在确立之中，这是未来10年AI的关键挑战所在。这一新兴领域中，最重要的是确立指导发展的基本原则。

、生成性：世界模型能够生成在感知、几何、物理层面保持一致的世界。要解锁空间理解与推理能力，世界模型一定要能生成属于自身个人的模拟世界。

它需要具备创造出无限多样虚拟世界的能力，这些世界一定要遵循语义或感知层面指令，同时在几何、物理、动态层面保持一致性，无论这些世界对应的是现实空间、还是虚拟空间。研究界目前正积极探索这些世界的内部几何结构，应当以隐式、还是显式的方式表示。

除此之外，我认为，除了强大的潜在表征之外，一个通用的世界模型，一定要能生成明确、可观测的世界状态，以适配不同应用场景。

尤其重要的是，它对当前世界的理解，必须与过去保持连贯，与导致这一现状的先前世界状态相一致。

、多模态性：世界模型在设计上即是多模态。如动物与人类一样，世界模型应可处理多种形式的输入，在生成式

AI中，通常被称为提示词。当输入信息不完整时，无论是图像、视频、深度图、文本指令、手势、动作，世界模型都应能够预测或生成尽可能完整的世界状态。

这样的能力，使得智能体与人类，可以通过多样化输入方式，与模型就世界进行交流，获得多样化的输出反馈。

/或目标，变成全球模型的输入提示时，输出必须包括世界的下一个状态，可以是隐式，也可以是显式。当输入仅包含一个动作，或者包含动作与目标状态时，世界模型应能生成与先前世界状态、预期目标若有、语义含义、物理规律、动态行为相一致的输出。

随着空间智能世界模型在推理与生成能力上慢慢地加强，可以想见，某些情况下，模型不仅能预测世界下一状态，还能基于这一新状态，进一步预测实现目标所需的下一步行动。

AI以往所面对的一切。语言只是人类认知中一种纯粹的生成现象，世界遵循远为复杂的规律。

在地球上，重力主宰运动，原子结构决定光怎么样产生色彩与亮度，无数物理定律约束每一次交互。

即便是最奇幻、最具创造力的世界，构成的空间物体与行动主体，都必须要服从特定的物理法则与动态行为。

要在语义、几何、动态、物理层面，实现一致的统一与协调，需要全新的技术与理论路径。

相较语言这样一维、顺序性的信号，对世界的表征，在维度与复杂度上要庞大得多。

World Labs，我们研究团队正致力在这一目标上取得根本性进展。以下是我们当前一些研究方向。

LLM中的下一Token预测那样简洁优雅的通用任务函数，一直是该领域的核心目标之一。世界模型在输入与输出空间上的复杂性，使得这种函数的构建本身极具挑战。

仍有大量未知有待探索，这种目标函数及其对应的表征方式，一定要能反映几何与物理规律，体现世界模型作为联结想象与现实的基础性表征体系的本质特征。

好消息是，大规模数据源已经存在。互联网上海量图像与视频，提供丰富、可获取的训练材料，真正挑战在于如何研发能够从二维图像或视频帧（即

10年研究表明，在语言模型中，数据量与模型规模之间有明确Scaling Laws；对世界模型，重点是构建能够在相似规模上，充分的利用现有视觉数据的架构。高质量的合成数据，诸如深度信息与触觉信息等额外模态，也将在训练过程中的关键阶段发挥重要作用。

要实现这一目标，我们仍需更先进的传感系统、更稳健的信号提取算法、更强大的神经模拟方法。

、新型模型架构与表征学习。世界模型的研究，将不可避免推动模型架构与学习算法的革新，尤其是在超越当前

MLLM与视频扩散模型范式的方向上。现有方法，通常将数据离散化为一维或二维序列，这使得一些简单的空间任务，变得不必要的困难，比如统计短视频中独特的椅子数量，或记住一个房间

1小时前的样子。替代性架构可能带来突破，例如具备三维或四维感知能力的分词、上下文、记忆机制。

为例，我们最近开发的实时生成帧模型RTFM（Real-Time Frame-based Model）体现这一方向转变。它将空间锚定的帧，作为一种空间记忆形式，在保持生成世界连续性与一致性同时，实现高效的实时生成。

在通过世界模型彻底释放空间智能之前，我们面临艰巨的挑战。这项研究不仅是理论探索，它将成为新一代创造力与生产力工具的核心引擎。

World Labs的最新进展令人振奋，我们近日首次向少量用户展示的早期成果，这是首个可以通过多模态输入进行提示，生成、维持一致性三维环境的世界模型。用户与创作者可在其中探索、交互，在创作流程中，继续扩展这一虚拟世界。

只是我们迈向真正具备空间智能的世界模型的第一步。随着研究不断加速，更多科学家、工程师、用户、商业领袖，开始意识到它所蕴含的巨大潜能。

AI时代到来的一名科学家，我的初心始终清晰，AI应当增强人类能力，而非取而代之。多年来，我一直致力让

AI研发、应用、治理，与人类需求保持一致。如今，关于科技乌托邦或末日论的极端叙事层出不穷，我依然坚持更务实的观点，

AI由人类创造、由人类使用、也应由人类治理，它必须始终尊重人的自主性与尊严。AI

真正魅力，在于扩展我们能力，使我们变得更富有创造力、更加紧密相连、更高效、更有成就感。空间智能正是这种愿景的体现，一种能让创作者、照护者、科学家、梦想家实现曾经不可能之事的

World Labs的Marble，已经让创作者与讲述者，能够直接掌握这些能力。机器人学，代表中期雄心目标，我们逐渐完备感知与行动之间闭环。

最具变革性的科学应用，可能需更长时间，它们有望对人类繁荣，产生深远影响。

纵观这些不同阶段，有几个领域格外需要我们来关注，它们最有潜力重塑人类能力。要实现这一愿景，需要集体的巨大努力，远超任何一个团队或公司的能力范围。

AI生态系统的共同参与，研究者、创新者、企业家、公司，乃至政策制定者，都必须携手朝着共同的愿景前进。这一愿景，可以让我们全力以赴。接下来，让我们一起看看这个未来，将带来什么。

创造力是智力在享受乐趣，这是我最喜爱的名言之一，出自我的精神偶像阿尔伯特・爱因斯坦。

早在文字出现之前，人类已经在讲述故事，他们将故事绘在洞穴石壁上，口耳相传，代代延续，以共同的叙事建构出整个文化。

故事是人类理解世界的方式，是跨越时空的纽带，是我们探索何为人的途径，更是我们在生命与爱中寻找意义的核心。

如今，空间智能有潜力彻底改变我们创造与体验故事的方式，不仅尊重叙事本身的根本价值，更将影响力从娱乐延展到教育，从设计延伸到建筑，让创造与体验的边界，得到全新拓展。

的Marble平台，把前所未有的空间创造力与编辑控制力，交到电影制作人、游戏设计师、建筑师、各类叙事创作者手中，使他们可以快速创建、迭代可自由探索的三维世界，无需承担传统3D设计软件所带来的复杂成本。创作行为依然保持独特的人性与活力，

AI工具只是放大、加速创作者能够实现的潜能，这包括：新维度中、展开叙事体验：

电影制作人与游戏设计师，正在利用Marble创造完整的世界，不再受制预算或地理限制，他们得以探索传统制作流程中难以企及的场景与视角。随着不同媒介与娱乐形式之间界限逐渐模糊，我们迈向全新的交互体验形态，艺术、模拟与游戏的融合体。

在这些个性化世界中，不仅是大型工作室，任何人都可以创造、居住在属于自己的故事里。

随着从概念与分镜、到完整体验的生成过程，变得更加快捷高效，叙事将不再局限单一媒介，创作者可以自由在多种平台与载体间，构建互相关联的世界与故事线。

几乎所有的制造物与建筑空间，在被实体化之前，都必须先在虚拟三维世界中完成设计。这一过程迭代频繁，在时间与成本上代价高昂。

借助具备空间智能的模型，建筑师可以在动工之前，快速可视化建筑结构，甚至漫步尚未存在的空间中，以一种讲故事的方式，探索人类未来的生活、工作、聚会方式。

工业设计师与时尚设计师，能瞬间将想象转化为形态，直观探索物体与人体、空间之间的关系。

体验本身，是人类创造意义最深层的方式之一。漫长的人类历史中，我们共享的唯一三维世界是物理世界。

VR、XR头显、沉浸式显示设备等新形态，将这种体验，提升到前所未有的高度。我们正迈向一个时代，走进完全实现的多维世界，将如同打开一本书般自然。

空间智能，让造世界的能力，不再只是专业团队与大型工作室的特权，是向个人创作者、教育者、任何怀抱想象的人开放。

机器人也将如此，自这一领域诞生以来，具备空间感知能力的机器，一直是终极目标，这包括我与斯坦福实验室学生与合作伙伴多年来的研究工作。

World Labs在构建的世界模型充满期待的原因之一，它们有望真正让这一愿景成为现实。通过世界模型，扩展机器人的学习能力：

鉴于机器人在理解、推理、规划、交互中所面对的庞大状态空间，许多研究者推测，只有结合互联网数据、合成仿真、人类演示的真实捕获，才能真正培育出具备泛化能力的机器人。

与语言模型不同，目前机器人研究的数据极其匮乏，世界模型将在此发挥决定性作用。

随着感知精度与计算效率提升，世界模型的输出，能快速缩小模拟与现实间的差距，帮助机器人在无数状态、交互、环境的仿真中进行训练。

作为人类协作者，无论是在实验台前协助科学家，还是陪伴独居长者，机器人都能在劳动力与生产力极度紧缺的领域中提供支持。

要做到这一点，它们一定要具有空间智能，既能感知、推理、规划、行动，又能保持对人类目标与行为的情感共鸣与理解，这点最为重要。

例如，实验室中，机器人能代替科学家操作仪器，让人类专注更需要灵巧与推理的任务；家庭中，助理机器人能帮助老人烹饪，而不削减他们自主性与生活乐趣。

真正具备空间智能的世界模型，能够预测下一状态，甚至推测与之相符的行动，是实现这一目标的关键。

人形机器人在我们构建的世界中确有角色，创新的全部潜力将来自更为多样的设计形式，如可输送药物的纳米机器人、能穿越狭窄空间的软体机器人、适用深海或外太空的探索型机器。

无论形态如何，未来的空间智能模型，都必须同时整合机器人所处的环境与自身的感知与运动方式。

这类机器人发展面临的核心难题，是缺乏适用多种具身形态的训练数据。世界模型将在这一过程中发挥关键作用，它们将为仿真数据的生成、训练环境的构建、评测任务的制定，提供基础支撑。

AI能够以拯救生命、加速发现等方式，增强人类能力的领域。我将重点谈及三个具有深刻变革潜力的方向，空间智能应用远不止于此，它将在更多行业中展现出广阔前景。

具备空间智能的系统，能够模拟实验、并行检验假设、探索人类难以到达的环境，从深海到遥远的行星。这项技术，将重塑气候科学、材料研究等领域的计算建模方式。通过将多维度的仿真与真实世界的数据采集相结合，这类工具能够更好的降低计算壁垒，拓展每一个实验室的观察与理解边界。

空间智能，将从实验室到病房，全面改变医学实践。在斯坦福，我与学生、合作伙伴，多年来与医院、养老机构、家庭患者紧密合作，这段经历让我更加坚信空间智能在医疗中变革潜力。

空间智能，能够让抽象或复杂的概念，变得可感知、可体验，实现沉浸式学习。它还能创造出与人类大脑、身体学习机制，高度契合的迭代式学习体验。

时代，更快、更高效的学习与再培训，对学生与成年人都至关重要。学生可以以多维视角探索细胞运作机制，或亲身走入历史事件；教师能借助交互式环境，实现个性化教学；外科医生、工程师等专业技术人员，可在逼真的仿真环境中，安全练习复杂技能。

AI增强人类专业能力，加速人类发现，放大人类关怀，不是取代构成人之为人的核心品质，判断力、创造力、共情力。结语

10年，AI已成为全世界现象，成为技术、经济，乃至地理政治学的转折点。作为一名研究者、教育者、如今创业者，真正激励我的，仍然是图灵在

75年前提出那个问题背后的精神。我依然与他一样，怀抱对智能惊奇与敬畏。这种好奇与挑战的魅力，让我每天都为空间智能的探索，充满动力。

人类历史上，我们首次有能力构建出与物理世界深度契合的机器，让它们是我们在应对重大挑战时让人信服的伙伴。

无论是加速我们在实验室中对疾病的理解，革新我们讲述故事的方式，还是在疾病、伤痛或衰老带来的脆弱时刻给予支持，我们站在一项能够提升人类最珍视生活要素的技术门槛上，这是一个让生命更加深刻、更加丰盈、更加有力量的愿景。

5亿年。我们有幸身处这样一个时代，或许很快，我们将让机器拥有同样能力；更幸运的是，我们也可以将这种能力，用于造福全人类。假如没有空间智能，我们对真正智能机器的梦想，永远无法完整。返回搜狐，查看更加多

产品中心

ayx爱游戏手机版:【长期主义】第375期智能说：李飞飞最新长文没有空间智能AI 永远没办法真正理解世界