| Contact Us | CHT | Mobile | Wechat | Weibo | Search:
Welcome Visitors | 登录 | 免费注册 | 忘记了密码 | 社交账号注册或登录

Home

News

Forums

Realty

大温餐馆点评

Car

Education

Yellow Page

Travel

加州: AI教母李飞飞最新长文火爆硅谷(图


请用微信 扫一扫 扫描上面的二维码,然后点击页面右上角的 ... 图标,然后点击 发送给朋友分享到朋友圈,谢谢!
1、生成性(Generative):世界模型能够生成具有感知、几何与物理一致性的世界


要实现空间理解与推理,世界模型必须能够生成自身的模拟世界。

它应能在语义或感知指令的引导下,生成无限多样、变化丰富的虚拟世界,同时保持几何、物理与动态上的一致性,无论这些世界是现实的还是虚拟的。


研究界目前正在探索,这些世界应当以隐式(implicit)还是显式(explicit)的几何结构形式表示。

除了强大的潜在表征(latent representations)之外,我认为通用世界模型的输出还应当允许生成显式、可观测的世界状态,以便适应不同的应用场景。尤其重要的是,模型对当下世界的理解必须与其过去的状态保持连贯一致——理解当前,就是理解它是如何演化而来的。

2、多模态(Multimodal):世界模型在设计上就是多模态的

正如人类与动物一样,世界模型应能处理多种形式的输入。在生成式AI领域中,这些输入被称为“提示词(prompts)”。

面对不完整的信息——无论是图像、视频、深度图、文本指令、手势还是动作,世界模型都应能预测或生成尽可能完整的世界状态。

这要求模型既要以真实视觉的精度处理图像输入,又能以同样的灵活性理解语义性指令。

如此一来,无论是智能体还是人类,都能通过多样的输入形式与模型就“世界”进行交流, 并以多样的方式接收输出。

3、交互性(Interactive):世界模型能根据输入动作输出下一个状态

最后,当动作(actions)和/或目标(goals)作为输入提示的一部分时,世界模型的输出必须包含世界的下一个状态。

这一状态可以是隐式的,也可以是显式的。当输入仅包含一个动作(有无目标皆可)时,世界模型应能生成与世界先前状态、预期目标状态(如有)、以及其语义意义、物理规律、动态行为相一致的输出。


随着空间智能世界模型在推理与生成能力上不断增强,我们可以想象,未来模型不仅能预测世界的下一个状态,还将能够基于该状态预测下一步行动。

这一挑战的规模,超越了AI以往所面临的一切。

语言是人类认知中纯粹生成的现象,而“世界”遵循的规则则复杂得多。

在地球上,例如:重力决定运动,原子结构决定光的颜色与亮度,无数物理定律约束着一切交互。


即使是最奇幻、最具创造性的世界,也由遵守物理与动态规律的空间对象与智能体构成。

要在模型中一致地协调这些——语义、几何、动力学与物理层面——需要全新的方法论。因为“世界”的维度远比语言这种一维的序列信号复杂得多。

要实现像人类一样具备普适空间智能的世界模型,必须跨越若干巨大的技术壁垒。

在World Labs,我们的研究团队正致力于这一目标的基础性突破。

以下是我们当前研究的几个方向示例:

一种新的通用训练任务函数:在世界模型研究中,一个长期目标是定义一种像LLM中“下一个token预测”一样简洁优雅的通用任务函数。然而,世界模型输入与输出空间的复杂性使这一函数的设计更加困难。尽管仍有大量探索空间,但这一目标函数及其对应表征必须符合几何与物理规律,忠实体现世界模型在想象与现实之间的“落地表征”本质。

大规模训练数据:训练世界模型所需的数据远比文本复杂。好消息是我们已经拥有了庞大的数据资源。互联网上规模宏大的图像与视频集合为训练提供了丰富的素材。挑战在于:如何让算法从二维图像或视频帧(RGB)中提取更深层次的空间信息。过去十年的研究揭示了语言模型中数据量与模型规模的scaling law;对于世界模型,关键在于构建能够在相似规模上有效利用视觉数据的架构。此外,高质量的合成数据以及额外模态(如深度、触觉)的作用不可低估,它们在训练过程的关键阶段起到补充作用。未来的发展取决于更先进的传感系统、更稳健的信号提取算法、以及更强大的神经仿真方法。

新的模型架构与表征学习:世界模型研究将不可避免地推动模型架构与学习算法的革新,特别是超越当下的多模态LLM与视频扩散模型(video diffusion)。这些模型通常将数据编码为一维或二维序列,使得简单的空间任务,例如在短视频中数清不同的椅子,或记住一小时前房间的样子变得异常困难。新的架构思路或许能改进这一点,例如具备3D或4D感知能力的token化、上下文与记忆机制。例如,在World Labs,我们最近开发了一种基于帧的实时生成模型——RTFM(Real-Time Generative Frame-based Model)。它以空间为基础的帧(spatially-grounded frames)作为空间记忆形式,实现了高效实时生成的同时,保持了生成世界的持续性与一致性。
点个赞吧!您的鼓励让我们进步     这条新闻还没有人评论喔,等着您的高见呢
Note:
  • 新闻来源于其它媒体,内容不代表本站立场!
  • _VIEW_NEWS_FULL
    _RELATED_NEWS:
    _RELATED_NEWS_MORE:
    _POSTMYCOMMENT:
    Comment:
    Security Code:
    Please input the number which is shown on the following picture
    The Captcha image
    Terms & Conditions    Privacy Policy    Political ADs    Activities Agreement    Contact Us    Sitemap    

    加西网为北美中文网传媒集团旗下网站

    Page Generation: 0.0508 Seconds and 3 DB Queries in 0.0015 Seconds