Powered by365建站
  • 首页
  • 体育投注
  • 真人下注
  • 真钱棋牌
  • 电子游艺
  • 电竞押注
  • 彩票竞猜
  • 现金捕鱼
  • 2026世界杯
  • 你的位置:开云app在线下载入口 > 2026世界杯 > 开云app下载 实测被吹爆的PixVerse R1,聊聊我们需要什么样的世界模型

    开云app下载 实测被吹爆的PixVerse R1,聊聊我们需要什么样的世界模型

    发布日期:2026-01-23 17:43    点击次数:184

    开云app下载 实测被吹爆的PixVerse R1,聊聊我们需要什么样的世界模型

    注意看,这个男人正躺在沙发上呼呼大睡,屏幕下方的输入框里有一行字:“What would you like to happen next?”(你希望接下来发生什么?)。

    你可以输入任何天马行空的指令把男人弄醒,比如让壁炉的火蔓延到房间,引发浓烟把他呛醒;或是让窗外突然雷雨交加,把他吵醒;甚至凭空变出一个外星人把他劫走。

    在输入文字/语音指令后,AI会在几秒内生成相应的视频内容。但可能是因为初始设定,这个男人最终总会回到沙发上,继续呼呼大睡。

    {jz:field.toptypename/}展开剩余91%

    看起来像是一个AI恶作剧游戏,但这其实是PixVerse最新发布的通用实时世界模型——PixVerse R1带来的真实体验。

    PixVerse于上周发布了全球首个支持1080P分辨率通用实时世界模型PixVerse R1,在AI视频圈迎来了一个小高潮。

    {jz:field.toptypename/}

    简单来说,以前我们用AI生成视频,需要先输入提示词,然后等待生成,最后得到一条视频。但PixVerse R1主打的是一种实时生成和交互的无限流体验。

    在PixVerse R1的官方演示视频中,画面左下角不断出现实时的指令输入,例如“一架黑色乌鸦飞过”“士兵拼命逃跑”“桌子翻倒”等。这些指令输入后,视频中的画面立即随之改变,且画面是连续不断演进的。

    理论上,只要你不断输入指令,视频就可以永远生成下去,像一场没有尽头的电影。过程中,我们能随时通过提示词改变画面走向,随意操控视频中的世界,这种体验类似于玩一款言出法随的游戏。

    就像上文那条视频的演示,人人都可以体验当上帝《楚门的世界》导演了。

    对于PixVerse R1的上线,社交媒体上充满了溢美之词,仿佛视频生成的终极形态已经到来。我们也第一时间拿到了R1的试用资格。

    虽然,如果以当前主流AI视频生成工具的质量标准来衡量,R1的表现很难称得上惊艳,提示词遵循度、画面的精细度和稳定性都有待提高。

    但我们需要意识到,目前的PixVerse R1,本质上还处于早期内测阶段,而并非一个成熟的商业化产品。就像以往很多大模型一样,世界模型更接近一次基础设施层面的重塑,需要各行各业的进一步探索和落地。

    在AI生成视频技术已经如此成熟的今天,世界模型的革命性到底在哪里?为什么世界模型是下一个技术前沿?以及为什么现阶段的它看起来并不是那么完美?

    今天,我们决定从PixVerse R1切入,聊聊世界模型究竟是什么,并盘点那些爆火的世界模型,尝试探讨一下世界模型将如何重塑游戏、影视、内容创作等行业。

    实测PixVerse,

    一场无限流交互体验

    在PixVerse R1的官网首页(https://realtime.pixverse.ai/),有一个名为“探索交互世界”的广场,这里预设了多个风格迥异的可交互虚拟世界。

    你可以潜入深海探索、登上月球漫步,也可以穿越回二战战场体验,或是进入《塞尔达传说》中的海拉鲁大陆冒险。

    其中最能体现交互式趣味的,莫过于我们在开头提到的《Can You Wake Him Up? 》。

    当然,如果你不想玩预设好的剧本,PixVerse R1也提供了从零开始的创造模式。只需要确定好视频画幅比例,选择一种视觉风格(如第一人称视角的POV、氛围感或戏剧性),最后输入你构想的世界观。设定完成后,一个属于你的、可供探索的实时生成世界就诞生了。

    接下来展示几个我们的测试结果。

    我先是选择了一个名为“Cybergens”的主题场景,画面主体是一个充满金属质感的旋转机械骷髅头。

    我输入“戴上一顶西部牛仔帽”的指令,我的预期是在保持机械骷髅主体不变的前提下,头顶凭空生成一顶帽子。实际上却是机械骷髅瞬间变成了一个戴着牛仔帽、眼镜和留着胡子的真人男性,但还是挺酷炫的。

    然后我又尝试了另一个指令“头部被小丑扑克牌环绕”,很显然生成的不是小丑扑克牌,但原本的骷髅头变成了一个🤡。我恍然大悟,好像是这么个逻辑:我说西部牛仔帽,它理解成西部牛仔;我说小丑扑克牌,它理解成小丑。

    进入这个塞尔达风格的世界后,一个酷似林克的卡通角色正在旷野上奔跑。我输入指令“长出一对白色翅膀在天空飞翔”。

    我的预期是角色应该像《原神》中使用风之翼那样,自然地展开翅膀升空、滑翔,保持动作的流畅性。结果却是原本正在向前奔跑的角色突然停下,然后莫名其妙地转过身来正对镜头,背后长出一对白色羽翼,原地扑腾了几下。

    在这个名为月球漫步的世界中,我先后输入指令“一艘UFO降落在地表”和“几个外星人从UFO下来”,结果UFO是有了,但从UFO上下来的却不是外星人,而是几个宇航员。

    在经历了前几次指令翻车后,我意识到目前的PixVerse R1在理解因果逻辑时存在短板。于是我决定放弃人为干预,看看如果不输入任何指令,模型靠自己的想象力会如何发展。

    这次我选择了容错率最高的“赛博朋克城市”主题,因为赛博朋克本身是个超现实题材,离奇和崩坏也就没那么不合理了。

    出乎意料的是,这竟然是效果最好的一次,让人仿佛置身于动画《赛博朋克:边缘行者》的场景中。

    视频开始于一段第一人称视角的城市漫游,巨大的全息金鱼在街道上空游动,街边的拉面摊冒着热气,开云app在线下载入口无人机在一座巨大的发光时钟旁穿梭……

    伴随模型PixVerse R1发布的,还有一份技术报告,PixVerse R1由三个模块支撑:Omni、Memory和IRE。

    Omni原生多模态基座是端到端的多模态模型,文本、图像、视频、音频被统一编码成连续token流。在保证实时性的同时,PixVerse R1维持了1080P的高分辨率,依靠Omni多模态底座,将文本、图像、音频和视频统一处理,实现了视听同步,还是很有技术挑战性的。

    盘点那些爆火的世界模型

    如果我们把视线从PixVerse R1身上移开,环顾整个世界模型赛道,会发现这里早已硝烟弥漫。在这个赛场,还有几位不得不提的重量级玩家。

    据“AI新榜”观察,目前世界模型的底层架构主要分为三大流派,且呈现出相互融合的趋势。一派是以PixVerse R1和Odyssey-2为代表的“视频派”,以生成视频为核心;另一派是以Marble为代表的“3D/空间智能派”,这一路径往往可以生成可交互、可导航、可编辑的三维环境;还有以NVIDIA Cosmos为代表的“物理派”,目标是构建极其精确、仿真的数字孪生世界,用来训练机器人和自动驾驶。

    Genie 3

    https://deepmind.google/blog/genie-3-a-new-frontier-for-world-models/

    Genie 3是谷歌DeepMind于2025年8月推出的最新一代世界模型,它能根据简单的文字提示实时创造可交互、可探索的虚拟世界环境。这个虚拟世界像游戏那样可以自由移动、互动,而且在短时间内保持物理及视觉一致性,让用户(或者训练中的智能体)像进入一个真正的世界一样探索和操作。

    跟传统的文本生成视频模型不同,Genie 3要同时理解世界的逻辑、物理与持久性,它能在720P分辨率、每秒24帧的条件下保持数分钟内世界的连贯性。这意味着你在一个场景里改变了某个对象的位置、天气等等,它能够记住这些场景状态。当用户控制角色离开某个场景再返回时,场景内的物体布局等状态保持不变。

    从官方介绍看,谷歌也把Genie 3定义为第一款支持实时交互的世界模型。相比Genie 2,Genie 3在交互性和画质上实现了质的飞跃:用户不仅能控制角色移动,还能通过文本指令实时修改环境规则,比如“把白天变成黑夜”、“让重力失效”。这种能力证明了模型对物理语义的深度理解。

    Odyssey-2

    https://odyssey.ml/the-dawn-of-a-world-simulator

    Odyssey-2是Odyssey(AI创业公司)2025年推出的实时互动式AI视频世界模型,和PixVerse R1十分相似,同样主打实时生成和可交互,能以约20帧每秒的速度实时生成视频帧。

    据我们的测试,Odyssey-2生成的视频画质和流畅度不如PixVerse R1,但可以点击画面元素触发推荐提示词,更有交互感。

    Marble

    https://marble.worldlabs.ai/

    Marble是由李飞飞创业公司World Labs于2025年11月推出的多模态世界模型与3D世界生成平台。

    Marble的核心能力在于它可以根据一句文字描述、一张图片、一段视频,甚至是粗略的3D布局,生成3D世界。生成后的3D世界可以进行交互式编辑、扩展,并导出为高斯泼溅、三角网格、视频等多种格式,可无缝导入主流游戏引擎如Unreal、Unity、Blender等。

    李飞飞团队认为,真正的智能必须具备空间感,其创立的World Labs就致力于构建具有空间智能的大型世界模型。

    传统3D内容创作通常需要庞大的建模团队和复杂工具,而Marble能在几分钟内根据简单描述生成完整的环境,大幅降低创作门槛。同时,它也为机器人学、建筑可视化、互动娱乐等需要精细空间理解的领域提供了新的工具。

    Oasis

    https://oasis.decart.ai/introduction

    Oasis是由Decart AI于2024年10月推出的实时交互式AI世界模型/游戏生成系统。它标榜自己为世界上第一个能够实时生成并让用户互动的开放世界AI模型。

    区别于传统的游戏引擎,Oasis能够根据玩家的输入,利用大规模预训练得到的模式理解和概率预测,在没有底层游戏逻辑和代码的情况下实时生成整个游戏世界。可以理解为Oasis是一个完全由AI生成的、可玩的Minecraft克隆版。

    目前,Oasis在世界持续性、高精度交互细节、分辨率与画面稳定性等方面仍有限制。

    NVIDIA Cosmos

    https://www.nvidia.com/en-us/ai/cosmos/

    NVIDIA Cosmos是英伟达于2025年1月推出的面向“物理AI”开发的世界基础模型平台,专注于让机器人、自动驾驶汽车等具备理解现实世界、预测物理状态、生成合成训练数据的能力。

    在实际应用层面,Cosmos能显著改进以下方面:用自动生成的数据训练机器人和自动驾驶系统,减少对真实采集数据的依赖;模拟复杂环境(如城市交通等)用于AI认知和策略学习;与NVIDIA的Omniverse等仿真平台协同,为物理AI系统提供更逼真的环境和更高效的开发流程。

    写在最后

    那么,世界模型究竟会如何重塑行业呢?

    在多个潜在应用方向中,游戏和互动娱乐行业可能是最先被世界模型改变的领域之一。

    过去,游戏世界是由策划和美术提前设计完成,玩家只能在有限规则、关卡内探索。而世界模型引入了一种新的范式,玩家不再只是沿着游戏设计者预设的规则行动,而是能够实时生成游戏世界,并进行探索和交互,这种变化将重塑游戏的开发流程。未来的游戏可能是由一个训练好的大模型实时生成,这将带来无限的开放世界和动态剧情。

    影视与内容创作行业同样会受到深远影响。

    想象一下,以互动影视为代表的互动叙事作品中,观众不再只是被动观看,而是可以在观看过程中持续影响剧情走向。这种以参与和反馈为核心的创作形态,也天然适配剧情向内容账号、互动直播栏目等,需要用户介入和实时反应驱动的内容形态。

    而且随着可导航、可编辑的虚拟世界逐渐成熟,创作者可以在一个完整的虚拟环境中“取景”和“拍摄”,场景、光照和镜头调度都可以在这个空间中完成。这种转变尤其适用于虚拟拍摄、视效制作和动画工业。

    相比创意产业,在机器人和自动驾驶等领域,世界模型的意义更加偏向工程和基础设施层面。这类行业高度依赖大量真实世界数据,但真实数据的采集成本高、周期长,而且在许多极端或危险场景中几乎不可行。世界模型通过构建具有物理一致性的模拟环境,为智能系统提供了一个可以反复试错和训练的“替代现实”。在这样的环境中,模型不仅可以学习感知,还可以学习决策和长期规划。

    可以确定的是,我们正站在一个清晰的临界点上,当AI逐渐成为构建和模拟真实世界的引擎,不仅将重塑影视、游戏、具身智能等行业的内容形态和交互体验,也被普遍视为通向通用人工智能过程中不可或缺的一步。

    但世界模型的真正价值,仍有赖于各行各业的开发者和创作者在此基础上,进行持续探索、应用落地和再创造。

    发布于:上海市