近日,北京穿越者载人航天科技有限公司(以下简称“穿越者”)发布首批太空游客名单引发大众关注。300万元一张太空旅游船票,把商业航天推到了舆论场中央。有人认为这是民营航天的市场化尝试,也有人质疑这是营销噱头。
根据公开报道,首批游客名单中除了穿越者创始人兼CEO雷诗情外,还出现了中国工程院院士李立浧、明星黄景瑜、探路者创始人王静、启赋资本董事长傅哲宽、智元机器人CMO邱恒,以及众擎机器人PM01人形机器人等,集结了学界、商界、航天界、艺术界及娱乐界。

智元CMO邱恒(左一)在发布会现场 来源:智元机器人
日前,澎湃科技记者(www.thepaper.cn)采访了智元机器人CMO邱恒,他向澎湃科技分享了他加入此行背后的故事。在他看来,两年多前他决定成为游客之一,是因为自己本来就想“上天”,想要支持这项“从0到1”的创业项目。
邱恒于2025年5月加入智元机器人,任CMO兼市场和解决方案销售总经理,此前他曾在华为担任企业BG首席营销官、全球Marketing总裁等职务。
邱恒称,他是2023年自费购买的这张太空船票,当时并不是觉得这个行业以后会火,而是出于个人想去太空旅游的愿望。
2023年邱恒生日当天,他受一位从事商业火箭业务的友人之邀,前往观看商业火箭发射。在发射现场,他遇到了穿越者创始人兼CEO雷诗情。
“这是第一个,也是唯一一个跟我说能够送我上天的人。”邱恒回忆说,当时雷诗情向他展示了蓝色起源(Blue Origin)、SpaceX在2022至2023年期间进行商业载人飞行的视频,“她说中国的票价比美国的更划算一些,我觉得可行。”邱恒说自己听完非常心动,“我一直有这个想法,现在突然有人告诉我(送人上天)不是异想天开,真有可能实现,当时觉得非常惊喜。”
回忆与雷诗情的交流,在邱恒看来,这与自己过去见证过的从零开始的创业项目类似,“很多项目从最初看起来异想天开,它最开始可能就是一颗特别小的种子。”
邱恒表示,自己决定和穿越者签合同,除了自己本身就想上天意外,也考虑到当时商业航天尚无人问津,普通人不太会购买,“我属于有意去突破'从0到1',商业航天的尝试,值得支持。”邱恒说。
签订完合同后,穿越者团队带邱恒参观了航天员训练中心,并介绍了未来类似国家航天员的训练流程。他还见到了来自航天系统背景的飞船设计师等核心成员,这进一步增强了他参与航天旅行的信心。
2023年至2025年1月22日期间,邱恒曾与穿越者公司有过几次交流,做过访谈和问卷调查之类的工作。穿越者团队在进行飞船设计时,也会向他征询意见,“这个过程实际是大家共创的”。譬如在太空人因体验方面,穿越者公司会向他询问舱内灯光氛围、是否播放音乐等细节问题。
放眼国际,维珍银河、蓝色起源从无人到载人仅用3至5年。据穿越者官网,成立于2023年1月11日的穿越者致力于打造中国的“龙飞船”,该公司计划用3到4年的时间首先完成亚轨道可重复使用商业载人飞船研制,2028年实现中国乃至亚洲的太空旅游,开启普通人、商业载荷低成本、常态化上太空的新纪元。首批太空游客将搭乘“穿越者壹号”飞行器抵达距离地面约100公里的卡门线——被认为是大气层与太空的分界线——并在亚轨道轨迹停留数分钟,体验3至6分钟的失重感。
如果三年后不能按原计划实现太空飞行怎么办?面对澎湃科技的提问,邱恒回答,“那就(相当于)创业失败了。伟大的尝试都有风险,既然敢于尝试,就能接受任何结果和可能。”
在城市通用智能机器人赛道上,硬件差异正在逐步缩小,真正决定竞争力的仍然在AI“大脑”能力上,“更准确地说是在开放场景下通用AI能力。” 近日,酷哇科技CTO(首席技术官)廖文龙在接受包括澎湃科技(www.thepaper.cn)在内的媒体采访时表示。廖文龙认为,大脑决定了系统能力的上限。构建AI大脑,需要依赖AI来优化AI模型与算法。
酷哇科技(COOWA)成立于2015年,是一家致力于实现物理世界的通用人工智能(Physical AI)的AI机器人服务提供商,2026年全系产品预估出货量将突破10000台,该数字超过公司过去数年交付量的总和,并已实现年度 EBITDA(息税折旧摊销前利润)回正。
2月5日,该公司正式发布Coowa WAM 2.0(World-Action Model)通用世界模型底座。Coowa WAM 2.0(World-Action Model)是一套针对高频且标准化的移动与作业任务构建的通用世界模型,基于Real-to-Sim-to-Real(从真实到模拟再到真实)闭环的通用世界模型。它不仅是“看”世界,更是在潜空间(Latent Space)中推演世界,实现Drive与Work的深度耦合。
廖文龙认为,物理AI模型将在未来3至5年迎来爆发性需求,未来五年,物理前端应该追求高度智能的无人化,而云端决策在未来一段时间仍保持人机协同。
尽管当前物理AI概念火热,但行业面临的核心问题仍然现实。
廖文龙指出,行业面临开放环境下长尾场景无穷尽,真实数据稀缺的瓶颈。“关键不是穷举所有极端情况,而是在不可穷举的前提下,让机器具备可靠安全的‘零样本决策’能力。”这意味着,物理AI接下来需走通一条具备持续商业造血能力的系统化道路,通过可规模化运转的商业闭环,在真实世界中持续获取海量数据,并以此驱动技术的持续迭代。

智慧城市出行服务
“海量数据中大部分是无效的,需要通过自动化流水线完成数据挖掘、自动标注、增量训练和仿真验证。这套Infra的迭代周期越快,竞争力越强。”廖文龙认为,AI Infra决定了数据的质量与规模问题,进而影响模型能力的上限。下一代具身智能的核心突破仍在于AI Model的持续演进。
2026年人形机器人竞争的第一声号角,正在春晚的舞台吹响。
近日,多家人形机器人企业接连官宣,将亮相马年春晚。就在央视春晚前,智元和京东也先后举办了各自的机器人晚会,各家机器人企业都将“春晚”视为一个争夺眼球、吸引资本与合作机会的“赛点”。
国家地方共建人形机器人创新中心首席科学家江磊日前向澎湃科技记者(www.thepaper.cn)表示,2026年会成为人形机器人行业的分水岭。国内大约80%的整机企业仍处于研究机器人平台阶段,对训练场、数据集及大模型等底层能力建设持观望态度,这类企业将在当前竞争态势下面临巨大风险。
换句话说,舞台上的热闹很可能只是表象;舞台背后下一轮洗牌,已经开始酝酿。摆在所有企业面前的并不是“谁跳得更齐、谁更会摆造型”的问题,而是更严肃的竞争逻辑:谁能证明自己具备持续迭代、规模交付与落地能力,谁才配坐上下一轮的牌桌。
春晚是“秀场”,也是“战场”
相较于去年,今年的春晚表演舞台机器人的含量“浓度”直线上升。
据澎湃科技不完全统计,截至2月11日,已有7家企业通过官宣或权威彩排信息确认参与春晚舞台,比如魔法原子是2026春晚智能机器人战略合作伙伴,16台机器人将在北京主会场参与多场景表演;银河通用机器人今年首次参与春晚舞台,作为此次春晚舞台指定的具身大模型机器人企业,将为北京主会场提供具身大模型技术支撑。宇树科技已是春晚舞台上表演的“回头客”,将参与北京主会场《骐骥新姿》节目表演,参演产品为G1/H1人形机器人。松延动力的人形机器人也将在春晚舞台完成首次登台。
除了人形机器人企业,科大讯飞将在合肥分会场参与表演,新松机器人的SR210A重载机械臂将在沈阳分会场参演。
这些企业正试图通过春晚建立品牌护城河。
智元创新(上海)科技股份有限公司合伙人、高级副总裁、具身业务部总裁姚卯青此前在接受澎湃科技采访时曾明确提到,2025年是衡量人形机器人企业能不能在牌桌上站稳脚跟的年份,2026年人形机器人企业会分化,一定会出现人形机器人企业第一梯队,“是不是三家不好说,可能还是在10家以内。”
在经历过估值飙升与短视频出圈的热潮后,机器人行业已进入残酷的去泡沫期。
“非它不可”的场景还在探索中
洗牌之所以不可避免,核心在于人形机器人商业化落地依然太难,人形机器人目前还没找到那个“非它不可”的场景。
目前人形机器人落地前三大场景集中在物流仓储、工业场景和商场导览/接待/文娱表演类。尽管看似场景丰富,但它们能展现的水平还回答不了一个问题:到底在什么场景下,必须用人形机器人?
科大讯飞机器人超脑平台总经理刘可为认为,场景的模糊性驱使行业陷入“让机器人更像人” 的极致追求,却因技术、供应链要求过高陷入 “面面俱到,面面不全” 的困境。在实际应用中,一旦机器人出现一次失误,用户的信任就可能归零。
一位机器人头部企业的技术战略官也对澎湃科技表示,2026年人形机器人行业变化会很大,可能会有一些公司倒掉,也可能有公司在场景落地上做得更丰富。但在场景竞争下,头部公司一定会优先抢占那些“好做的场景”,或者干脆把产品做到足够好,只有这两条路才能走得下去。
对于“跳舞”表演这类场景,前述人士认为,跳舞只要机器人本体能力足够好就能成立,但跳得好不代表有市场。“一个本地厂家起来以后,谁会选择用你来跳舞?关键还是有没有具备大批量出货的能力。如果已经能实现规模交付,在后续迭代中,优势会越来越明显。”
姚卯青也呼吁在政策端推动场景开放。机器人普遍需要训练,而现有的部分场景方不愿意让还处于早期的行业进入场景。
“这就会陷入鸡生蛋蛋生鸡的悖论,机器人不进场就没有数据与反馈,行业更难成熟,更不敢进场”。姚卯青建议通过政策鼓励场景方开放,对那些愿意先行先试、敢于“吃螃蟹”的主体给予补贴或真金白银支持,“只有这样,才能把冷启动拉进正循环。”
不成熟的供应链
尽管2025年人形机器人实现了从实验室到产业现场的跨越,甚至出现了亿元级别的订单,但人形机器人的“出货量”不能避而不谈。
2026年1月,行业围绕“谁是2025年出货量第一”出现了明显争议。
市场研究机构 Omdia 和CounterPoint Research给出一组出货预估数据,称智元 2025 年人形机器人出货量为 5168 台、位列第一,并对宇树给出约 4200 台的估算。
随后宇树科技在官方微信公众号公开澄清,并给出自己的口径:2025 年纯人形机器人“实际出货(出售并发货到终端客户)”超过 5500 台,同期量产下线超过 6500 台;同时强调机器人形态多样,不应把双臂轮式等其他形态产品与“纯人形”直接合并对比。
从全球视角看,热度与人形机器人出货量规模之间的落差同样明显。权威机器人行业媒体The Robot Report最新发布的《2026年机器人行业展望》报告中指出,2025年人形机器人领域完成了463轮融资、150多家公司入场,估值飙升了300%,但实际出货量仅同比增长17%。
有科技投资人向澎湃科技感慨,现有的人形机器人出货量还远远不够。
江磊认为,对于人形机器人整机企业来说,现在更像是在做“消费级产品储备”,年产量现阶段不敢超过一万台,因为“产太多没有用途、售后压力也会非常大”。
无论是商业展演还是工厂试用,人形机器人都还没形成能自我造血、可复制的商业闭环。高昂的设备维护成本、不可避免的损耗以及极低的复购率,使得机器人的销售规模目前还难以覆盖长期的研发与运营投入。 “亿元订单”和“规模交付”,还只是迈出了商业化长征第一步。
供应链成熟度是制约规模化量产的关键问题。姚卯青在接受澎湃科技采访时明确提及,团队“踩到最大的坑”,是对产业供应链不成熟、不完备的程度预估不足,机器人的供应链、产业链比原先预想的还要不成熟;可能还需要再经过2026年一整年的推进,关键零部件才会出现相对成熟、标准化的方案。
只相当于6岁孩子的大脑
近两年,人形机器人的进步更多体现在“小脑”,即运动控制上,能走能跑能跳。但决定它是否真正有用的“大脑”智能决策部分,仍是当前人形机器人最大的短板。有财经媒体透露,现实中,不少人形机器人本体企业在AI大脑层面的投入依然很少,现阶段仍依托阿里、字节等科技大厂的通用大模型赋能。
江磊曾在接受澎湃科技采访时旗帜鲜明地表示,“对于人形机器人产业来说,最缺的并不是人形结构,而是有内容的大脑。”“现在(人形机器人)的大脑只相当于6岁小孩。”江磊认为,大脑不够成熟,抑制了人形机器人的产能,即便人形机器人的产能提高也没有用途。
围绕“大脑”如何提升,当前行业内有几条并行竞争的主流技术路线,包括端到端VLA(Vision-language-Action)路线、模仿学习(IL)、强化学习和世界模型等,但在这些路线之中,哪一条更可能通向“通用”智能现在仍无定论,争议也最集中在被寄予厚望的端到端 VLA 上。
清华大学自动化系教授赵明国曾在访谈中尖锐指出,行业热捧的VLA(视觉-语言-动作)模型更多是过渡性的技术手段,而非终极方案”。他认为,大语言模型的成功,源于人类语言数据的“标准化”与“海量”,但物理世界的视觉、触觉数据“非常不规范”,想简单照搬大模型那套逻辑,“是行不通的”。
与该观点相呼应的是,国内具身智能创业公司灵初智能联合创始人陈源培认为,具身智能真正的难点不在于如何炫酷的Demo或是模型架构,而在于能不能撑起百万小时规模的数据积累。“数据量不够,模型层面的操作没有任何意义,调整架构带来的成功率没有价值。”
这揭示了一个深层困境:我们缺的或许不只是算力,更是对物理世界交互逻辑的根本理解。
《2026年机器人行业展望》指出,未来将会有更多公司宣布关停或被“收购式招聘”(acqui-hire),原因往往是它们无法展现足够的商业增长势头,从而难以支撑下一轮融资。未来 12 个月正在酝酿成为机器人行业又一个具有变革意义的年份。
2026年这场预期的洗牌,与其说是寒冬,不如说是一次挤掉泡沫、回归实干的必然过程。在场景不明、模式不通、智能不足的三重考验下,唯有能同时回答好这三个问题的企业,才可能穿越周期,带领人形机器人真正走向未来。
2月24日,国内具身智能初创企业千寻智能(杭州)科技有限公司(以下简称“千寻智能”)宣布连续完成两轮融资,总额近20亿。随着本轮融资落地,千寻智能估值突破百亿,正式跻身具身智能赛道 “百亿俱乐部” 核心成员。
就在前一天,智平方(深圳)科技有限公司(以下简称“智平方”)宣布完成超10亿元B轮融资,估值同样迈过百亿门槛。
马年开年,具身智能赛道接连诞生两家百亿估值企业。

千寻智能
千寻智能成立于2024年1月,核心团队由原珞石机器人联合创始人及CTO韩峰涛与清华大学交叉信息学院助理教授高阳领衔。
该公司称,其自研的Spirit v1.5模型,成为首个在性能上超越美国具身智能公司开源的模型Pi0.5的中国开源模型。数据方面,千寻智能提出的“数据金字塔”训练理念,目前已累计获取超20万小时多类型真实交互数据,通过自研的可穿戴式数采设备,将数据成本降至传统方式的1/10。
2025年12月,千寻智能全球首条人形具身智能产线在宁德时代中州基地投运,旗下人形机器人小墨作为核心设备,实现近千块电池零故障量产,作业节拍与熟练工人相当;小墨机器人目前也已入驻京东零售场景,用于讲解互动与产品操作演示。
智平方成立于2023年4月,创始人郭彦东为国家级创新领军人才,曾任微软美国总部、小鹏汽车及OPPO核心研发岗位。该公司一年累计完成12轮融资,围绕自研的大模型GOVLA(全域全身VLA大模型)打造的AlphaBot(爱宝)系列机器人,在两年内完成三代迭代。据了解,目前爱宝机器人已在工业柔性制造、公共服务及新零售领域实现落地。

智平方
对于此轮系列融资资金,智平方相关负责人表示接下来将重点保持GOVLA具身大模型能力的技术迭代升级,让机器人的“大脑”越来越聪明。在迭代大脑的基础上,驱动AlphaBot(爱宝)系列机器人产品迭代与产线扩容。
澎湃科技梳理发现,2026年春节前后,具身智能投融资热度仍在延续,至少有七家与具身智能产业链直接相关的企业披露融资进展,覆盖机器人本体(硬件平台)、具身“大脑”(VLA/具身大模型、学习与控制算法),以及支撑闭环落地的数据、工具链与场景系统能力等环节。
2月10日,专注具身智能大脑公司穹彻智能宣布完成数亿元A轮融资;2月11日,定位智能机器人解决方案公司星海图完成近10亿元B轮融资,累计融资额近30亿元,估值百亿元;2月13日,成立仅10天的智元旗下、定位具身智能数据服务平台型企业觅蜂科技宣布完成数亿元种子轮与天使轮融资;2月14日,聚焦构建机器人“通用大脑”与“操作智能”创业公司无界动力宣布完成超2亿元天使+轮融资,与此同时,第三轮融资已接近完成,累计融资额将达8亿元;同日,定位机器人大脑研发商、清华系具身智能大脑公司千诀科技在两个月内完成Pre-A++轮融资。
当资金不再集中于单一叙事,而是在“本体能力”与“具身大脑/系统能力”之间同步加注,具身智能的投融资逻辑正在发生变化。资本关注的焦点正从“谁能讲故事”,转向“谁能构建完整能力体系与真实场景闭环”。
确定早期植物何时在陆地开始扩张并对地球系统产生影响,是地球系统演化研究中的核心问题之一。中国科学院地质与地球物理研究所赵明宇研究员团队通过研究,发现了新的地球化学证据,表明陆地植物开始塑造地球表层环境的时间早于以往的认知。相关研究成果2月24日在国际学术期刊《自然·生态与演化》发表。

早期植物在陆地的扩张模拟图
陆地植物与海洋初级生产者所产生的有机质存在显著差异:陆地植物形成的有机质具有更高的有机碳/磷比值。随着陆地植物在大陆上扩张,陆地光合作用不断增强,陆地有机质的生产相应增加。这些陆地来源的有机质通过河流被输送至海洋,并最终进入海洋沉积物,提高了海洋沉积物中的有机碳/磷比值。由于陆源有机碳的产生与其在海洋中的埋藏过程紧密耦合,海洋碎屑沉积物中的有机碳/磷比值就成为了追踪陆源有机碳输入、乃至反映陆地净初级生产力变化的重要指标。
研究团队对不同氧化还原条件下的海相碎屑沉积记录进行了系统分析后发现,有机碳/磷比值自约4.55亿年前出现显著升高。对多种可能控制因素的评估表明,这一变化反映的是与早期陆地植物扩张相关的陆地净初级生产力显著增强。混合模型估算结果进一步显示,自晚奥陶世(约4.55亿年前)以来,陆源有机碳约占海洋沉积物中总有机碳埋藏量的42±15%,这一占比已接近现代水平(30%–57%)。古大陆尺度的分析还表明,陆地植物的扩张可能最早发生在劳伦古陆(现今北美洲等主要地点)。
该研究还揭示,有机碳/磷比值在晚奥陶世出现了两次明显升高,与此时期发生的两次重要碳同位素异常事件相对应。这表明,富碳、贫磷的陆源有机质向海洋沉积物的输入,促进了全球有机碳的埋藏,从而推动了大气氧含量的累积,并降低了二氧化碳浓度。此外,陆地植物快速扩张所引发的硅酸盐和磷风化增强,可能进一步放大了这些环境效应。综合来看,早期陆地植物的兴起可能在约4.55亿年前就显著推动了地球表层环境的氧化的进程,并可能促成了晚奥陶世冰期和大规模灭绝事件的发生。
截至2月24日,上交所融资余额报13168.87亿元,较前一交易日增加162.20亿元;深交所融资余额报12808.63亿元,较前一交易日增加175.18亿元;两市合计25977.50亿元,较前一交易日增加337.38亿元。
浙江大学光电科学与工程学院教授狄大卫、邹晨和赵保丹团队研制了世界上第一个电驱动钙钛矿激光器。近日,相关研究论文发表于《自然》。
激光器种类繁多,当前钙钛矿半导体、有机半导体和量子点等新型激光材料展现出显著优势。在这些材料中,钙钛矿半导体因其发射光谱可调(可实现各种色彩),且在光驱动条件下能实现极低的激光发射阈值,具有十分广阔的技术前景。然而,一直以来,研发电驱动钙钛矿激光器是钙钛矿光电子学领域的最大挑战,也是全球众多科研团队共同追寻的目标。
为实现电驱动激光发射,研究人员发明了一种集成式的双腔结构,将高功率微腔钙钛矿LED子单元与低阈值钙钛矿单晶微腔子单元集成于同一个器件,形成了一个垂直堆叠的多层结构。该器件将微腔钙钛矿LED在电激励下产生的大量光子高效耦合(耦合效率达82.7%)到第二个微腔中,并激发单晶钙钛矿增益介质,产生激光。
在电激发条件下,钙钛矿激光器的激光阈值为92安培/平方厘米,比最好的电驱动有机激光器还要低一个数量级。而且,电驱动钙钛矿激光器表现出比有机激光器更优异的可重复性和稳定性,能在36.2兆赫兹的带宽下实现快速调制。这种调制速率是通过减小器件有效面积以实现最小电阻电容常数,并使用硅衬底改善散热实现的。
电驱动钙钛矿激光器可用于光学数据传输等多种应用场景,还可用作集成光子芯片和可穿戴设备中的相干光源。研究人员表示,未来还需要克服微腔钙钛矿LED子单元纳秒级的自发辐射寿命限制,以实现器件的吉赫兹级高速运行。
相关论文信息:https://doi.org/10.1038/s41586-025-09457-2
10月16日,智元机器人正式发布新一代工业级交互式具身作业机器人智元精灵G2。

精灵G2。图片来源:智元机器人
精灵G2以工业标准打造,搭载高性能运动关节、高精度力矩传感器,集成先进的空间感知系统,支持快速学习部署,拥有出色的多模态语音交互能力,具备工业、物流、导览等多场景通用能力。
续航方面,精灵G2可自主回到充电站补能,还拥有双电池热插拔换电能力,满足24小时工厂产线节拍。

直播中,工程师用生鸡蛋推动精灵G2的力控臂。图片来源:智元机器人
值得注意的是,得益于英伟达Jetson Thor T5000高达2070 TFLOPS(FP4)的本地算力,G2能够实时响应与决策,本地高速处理多路传感器数据,延迟低于10ms。参数量更大的VLA、LLM等大型AI模型得以在本地直接运行,性能更强、泛化性更好,同时大幅缩短开发周期,在虚拟环境中训练和测试后可一键部署到真机,减少试错成本和时间。
发布会现场展示了精灵G2的超低延迟遥操作功能。在视距内操作和超视距遥操作两种情境下,操作人员分别演示了乒乓颠球和射箭技能。
发布会还展示了精灵G2已进入部署阶段的四大真实场景案例。在汽车零部件生产车间,精灵G2正被应用于汽车安全带锁芯的生产流程,与人工配合,完成安全带锁芯压紧、物料搬运等操作。
智元机器人合伙人、高级副总裁、具身业务部总裁姚卯青透露,10月16日下午,智元机器人将与均普智能在宁波联合举办智元精灵G2线下全球首发暨投产仪式,并同步开启与均胜电子过亿元采购合同的首批交付商用,正式落地汽车零部件制造场景。此前,精灵G2也已斩获龙旗科技数亿元订单,切入消费电子精密制造核心场景。
10月16日,“AI教母”李飞飞宣布对外推出全新模型RTFM(AReal-TimeFrame Model,实时帧模型)。RTFM是一款全新的实时生成世界模型,能够与用户交互时实时生成视频,并遵循三大核心设计原则:效率、可扩展性、持久性。
RTFM可将单张图像渲染成3D场景,一个模型可处理多种场景类型、视觉风格和效果,包括反射、光泽表面、阴影和镜头光晕。该模型已以预览版形式开放用户体验。

使用 RTFM 渲染的布满阳光的游泳池场景
能在单张H100GPU上运行的“实时世界”
李飞飞团队World Labs表示,强大的世界模型将能够实时重建、生成并模拟具有持久性、交互性且物理精度高的虚拟世界。这类模型将彻底改变从媒体到机器人技术乃至更广泛领域的产业格局。
过去一年间,这项新兴技术发展迅猛,生成式视频建模的突破性进展已成功应用于生成式世界建模领域。一个趋势随之逐渐明朗:生成式世界模型的计算需求将远超当前的大型语言模型。
若简单套用现代视频架构,要生成60帧/秒的交互式4K视频流,每秒需要生成超过10万个标记(相当于《科学怪人》或《哈利·波特》第一部的篇幅)。若要让这些生成模型持续运行一小时以上,需处理的上下文token更将超过1亿。以当今的计算基础设施来看,这种方案既不可行,也不具备经济可行性。
World Labs认为,在人工智能领域,随着计算能力提升而优雅扩展的简单方法往往占据主导地位,因为这些方法能够受益于推动技术发展数十年的计算成本指数级下降趋势。生成式世界模型完全具备优势,将在未来持续降低的计算成本中获益。
这就引出了一个自然的问题:生成式世界模型是否被当今的硬件限制所阻碍?或者现在是否有方法可以预览这项技术?
于是,李飞飞团队设定了一个简单而明确的目标:设计一个高效且可部署的生成式世界模型,能够随着计算能力提升持续扩展。
他们想要构建一个能在单张H100GPU上运行的模型,既能保持交互帧率,又能确保世界数据在长时间互动后依然完整。实现这些条件能让他们通过当前的体验提前预判未来这些模型可能达成的高度。
这一目标影响了他们从任务设置到模型架构的整个系统架构设计,并通过仔细优化推理堆栈的所有部分,应用架构设计、模型蒸馏和推理优化方面的最新进展,为在当今硬件上运行的未来模型提供最高保真的预览。

RTFM 对地板上的复杂阴影和反射进行建模
从图像到世界:RTFM如何突破生成式建模的边界
扩展性方面,传统3D图形管线依赖人工设计的显式三维模型(如三角网格、高斯贴图)和算法,对几何、材质、光照等进行精确建模,再渲染为二维图像。该方法虽成熟,但在处理大规模数据时扩展性受限。
而RTFM采用了一种基于生成式视频建模的创新方法,其核心是一个经端到端训练的神经网络。它仅输入场景的二维图像,无需构建显式三维模型,即可从新视角生成对应图像。
该技术基于生成式视频建模,训练一个神经网络将输入图像转换为一种隐式的世界表征(KV缓存),进而通过注意力机制直接从该表征中读取信息,来生成新视角下的连贯图像。这意味着复杂的光照、反射等效果并非由人工规则定义,而是通过从数据中学习自动掌握,从而能够与Marble 实现从单张图像高效创建具有真实感的3D场景。
RTFM还有一个重要特性是模糊了重建与生成的传统界限:当输入视图充足时,系统倾向于精确重建;当输入视图稀疏时,它则能进行合理的内容推演与生成。

使用 RTFM 渲染的户外游乐场
另外,现实世界具有持久性:当视线移开时,场景不会消失或重置,人们可以随时返回之前的位置。这一特性对自回归帧模型构成了显著挑战。由于此类模型仅通过二维图像帧序列隐式地表示世界,随着探索范围扩大,需要处理的帧数量持续增长,导致每一帧的生成成本不断累积,模型的“记忆容量”实际上受限于可用的计算资源。
RTFM通过引入“姿态帧”作为空间记忆,有效突破了这一限制。该方法将每一帧与其在三维空间中的姿态绑定,使模型能够在生成新帧时依据目标姿态从已有的空间记忆中检索邻近帧,构建局部上下文。这种设计为模型提供了一个弱空间先验—即世界处于三维欧氏空间中,而无需显式进行几何重建,既降低了建模复杂度,也增强了对场景结构的理解。
为实现高效运行,RTFM采用了上下文调度机制,在不同空间区域生成图像时动态切换所使用的上下文帧,称为“上下文切换”。这一策略使模型无需在处理新帧时加载全部历史数据,从而支持大规模场景的持久维护,实现所谓“无限持久性”。通过将帧组织为具有空间结构的记忆系统,RTFM在长期交互中能够保持场景一致性,同时显著提升生成效率和可扩展性。
World Labs指出,RTFM展示了在现有硬件上部署高效世界模型的愿景,其技术核心是将世界模型定义为端到端、数据驱动的渲染器。该框架具备良好的扩展性,未来可模拟动态世界并支持用户交互。当前模型目标是在单张H100GPU上实时运行,而更大规模的模型将持续优化性能。
World Labs成立于今年4月,在四个月内从创始公司成长为独角兽。去年9月,World Labs正式宣布完成2.3亿美元的巨额融资,投资方包括硅谷知名投资机构a16z、NEA、加拿大风投公司Radical Ventures,以及英伟达公司的风险投资部门等。众多AI领域的知名人士也参与了投资,包括谷歌DeepMind首席科学家杰夫·迪恩(Jeff Dean)和前谷歌AI研究员杰弗里·辛顿(Geoffrey Hinton)。
富时中国A50指数期货盘初涨1.17%,上一个交易日夜盘收涨0.35%。