深度|打破次元边界,Xmax AI发布世界首个虚实融合的实时交互视频模型X1,开启视频交互新范式

图片[1]-深度|打破次元边界,Xmax AI发布世界首个虚实融合的实时交互视频模型X1,开启视频交互新范式-AI Express News

图片来源:Xmax AI

如果 2024 年我们还在感叹 Sora 模拟物理世界的真实感,那么在 2026 年的今天,单纯的高清视频生成已不再是终点。

当屏幕中的虚拟角色只能被动观看,无法感知现实环境,无法回应你的触碰时,AI 视频生成实际上仍被禁锢在“预制内容”的旧范式中。而打破这层次元壁的,是一家由前华为「天才少年」创立的初创公司—— Xmax AI

今日,Xmax AI 正式发布全球首个虚实融合的实时交互视频生成模型——X1。不同于致力于重构影视工业的文生视频模型,X1 选择了一条更为硬核且鲜有人涉足的路径:实现毫秒级的实时视频生成和低门槛的手势交互,并让虚拟内容进入现实当中。

这不仅是技术的突破,更标志着 AI 视频正在从“内容消费”向“实时体验”跃迁。

图片[2]-深度|打破次元边界,Xmax AI发布世界首个虚实融合的实时交互视频模型X1,开启视频交互新范式-AI Express News

图片来源:Xmax AI

看到这个消息的第一时间,我们就联系Xmax AI团队拿到了抢先体验资格,然后就出现了颠覆的一幕。

手机对准桌面,选取一张滚球兽的照片。下一秒,它就“脱屏而出”,立在你的桌面上四处张望。你伸出手,它先是警惕,随后亲昵地蹭你的手心;你轻轻一捏,它会给出Q弹的物理反馈;摊开手掌,它甚至能被你稳稳“托”住。曾几何时少年梦想里的那只滚球兽,竟然真的打破次元跃入桌上。

这就是X1,不需要复杂的Prompt(提示词),不需要漫长的云端渲染等待,仅凭一个手机摄像头和最直观的手势,它就能让幻想与现实无缝融合。

目前,Xmax AI已通过技术演示应用 X-cam beta开放了X1模型的能力体验。感兴趣的朋友可以通过testflight下载,并通过文末的方式获取邀请码,提前触摸交互式AI视频的未来。

拒绝“只看不碰”与“漫长等待”,AI视频进入“实时的人人可玩”时代

过去两年,AI视频生成领域堪称“神仙打架”。

数据显示,2024年全球AI视频生成市场规模已超6亿美元,预计2032年将突破25亿美元。在Sora、Runway等巨头的引领下,行业卷画质、卷时长、卷分辨率,致力于为影视和广告行业打造更强的生产力工具。

然而,在这场军备竞赛中,普通用户却显得有些“局外人”。

现有的文生视频工具,要么门槛高(需要像写代码一样写Prompt),要么反馈慢(生成几秒钟视频需要等待数分钟)。最关键的是,生成的视频即使再逼真,也只是一段“只能看、不能碰”的MP4文件,与此刻的你毫无关联。

Xmax AI敏锐地捕捉到了这一痛点:AI视频要真正走向大众,必须进一步降低门槛从“生成结果”进化为“生成体验”。

Xmax AI选择了一条截然不同的技术路线:虚实融合 + 实时交互。他们不仅要生成画面,还要让画面理解现实,并允许用户用最本能的手势去参与画面。

基于X1模型的实时生成能力,Xmax AI落地了四大核心玩法,让手机瞬间变身为连接次元的“魔法棒”:

  1. 次元互动:打破次元壁的触摸

    如开头演示,任意上传一张角色图(动漫IP、宠物照片、毛绒玩具),打开摄像头,X1模型就能将其置入现实场景中。 

    这不仅仅是叠加,当你抚摸屏幕中的兔子时,X1会实时生成它“转头蹭手”的视频帧;当你的手指划过它的眼睛,还能看到绒毛因触碰而发生的细微形变。所有的物理反馈都是AI实时计算生成的,零延迟的交互让它看起来就像一个真实的生命体。

  1. 世界滤镜:万物皆可“风格化”

    上传一张梵高画作或乐高积木图,摄像头拍摄的现实画面就会实时转化为对应风格。 这不仅是滤镜,更是实时的“世界重绘”。当你对着镜头挥手、摇头,画面中那个变成“乐高人”或“二次元纸片人”的你,会实时做出完全同步的动作。无论是用来拍视频,还是渲染游戏画面,都充满了赛博朋克的趣味。

  1. 触控动图:指尖上的“提线木偶”

    让静态照片“活”过来,不再需要复杂的后期软件。 在触摸屏上拖拽照片中角色的耳朵,它会跟着摇头;拖动嘴角,它会露出微笑。你甚至可以上传自家猫咪的照片,通过触控让它挥拳、跳舞。X1模型仿佛赋予了静态图像以骨骼和肌肉,让用户像操控提线木偶一样轻松赋予图像生命力。

  1. 表情捕手:社交破冰神器

    镜头对准朋友,选择一个“愤怒”或“大笑”的Emoji,AI会瞬间捕捉对方特征,实时生成一个神态精准、魔性十足的动态表情包。摄像头变成了一个万能的“精灵球”,任何现实中的人或物体都可以被瞬间“捕捉”,成为你们之间的有趣回忆。

华为“天才少年”领衔,破解算法+工程的“暴力美学”

在业内人士看来,X-cam看似简单的“好玩”背后,其实是极高技术门槛的工程化胜利。要实现上述效果,必须同时翻越三座大山:极致实时、精准意图理解、稀缺的高质量数据。

这正是Xmax AI团队的护城河所在。

Xmax AI拥有一支既懂底层算法、又懂工程落地、还极具产品嗅觉的“特种部队”:

  • 创始人史佳欣:前华为“天才少年”,极客出身,对端侧AI有深刻洞察。

  • 联合创始人梁宸:港科大(广州)助理教授、博导,学术背景深厚。

  • 联合创始人翁跃庭:全栈工程师,“六边形战士”。

  • 核心技术团队源自清华大学KEG实验室和HCI实验室,汇聚了国内大模型与人机交互领域的顶尖大脑,且大多拥有字节、快手、华为、阿里等大厂的实战经验。

面对技术挑战,这支团队交出了一份硬核答卷:

  • 针对“极致实时”:他们没有沿用传统的生成管线,而是提出了端到端流式重渲染视频模型架构。通过帧级别的自回归DiT(Diffusion Transformer)和多阶段蒸馏压缩,Xmax AI将扩散采样的速度提升了百倍,不仅将延迟压低至毫秒级,更通过自研的循环回归架构打破了时长限制,实现了无限时长的连续生成,为自然交互奠定了基础。

  • 针对“意图理解”:如何让AI精准理解手势背后的交互意图?Xmax AI构建了统一的交互模型架构,让模型既能理解摄像头透视下的三维空间关系,也能理解屏幕触控下的二维操作从而对于用户的各类交互行为,模型都能够实现精准的意图识别。

  • 针对“数据荒漠”:虚实融合的交互数据在行业内极度稀缺。Xmax AI自主搭建了一套虚实融合数据合成管线,以半自动化方式批量生成高质量交互训练数据,这些独特的数据认知和数据管线成为了Xmax AI难以被复制的行业壁垒。

     

X1:Play the World through AI

如果说Sora代表了AI像导演一样去叙事、去造梦;那么Xmax AI的X1模型,则希望AI能像玩伴一样,陪你疯、陪你玩。

对于Xmax AI团队而言,X1模型和X-cam应用只是一个开始。他们不仅是在开发一款App,更是在试图定义全新的内容交互范式,以及搭建下一代内容交互引擎

在他们的愿景里,世界的一切内容都可以通过实时AI变得可交互、变得更好玩:

  • 未来的社交,摄像头就是“精灵球”,随时捕捉好友进行搞怪互动;

  • 未来的游戏,不再局限于屏幕内的像素,虚拟怪物可以直接跳到你的身上;

  • 未来的陪伴,数码宝贝、虚人将真正融入现实生活,可触碰、可感知;

  • 未来的视频,不再只能被动观看,而是可以随时唤醒,让内容变得更加鲜活、更加个性化。

正如Xmax AI的Slogan所言:Play the World through AI(用AI玩转世界)。

技术,终将让幻想触手可及。

【抢先体验传送门】Xmax AI目前已开放TestFlight内测申请:

https://testflight.apple.com/join/8sWgKZeQ

下载APP后,在登录界面点击申请邀请码,即可抢先体验这扇通往虚实融合世界的“任意门”。

这一次,别只做观众,来做那个“被选召的孩子”。

(也可以通过Xmax AI官网https://xmax.ai/来了解更多信息)

-----------END-----------
图片[3]-深度|打破次元边界,Xmax AI发布世界首个虚实融合的实时交互视频模型X1,开启视频交互新范式-AI Express News
🚀 我们正在招募新一期的实习生
图片[4]-深度|打破次元边界,Xmax AI发布世界首个虚实融合的实时交互视频模型X1,开启视频交互新范式-AI Express News
🚀 我们正在寻找有创造力的00后创业
图片[5]-深度|打破次元边界,Xmax AI发布世界首个虚实融合的实时交互视频模型X1,开启视频交互新范式-AI Express News
图片[7]-深度|打破次元边界,Xmax AI发布世界首个虚实融合的实时交互视频模型X1,开启视频交互新范式-AI Express News
关于Z Potentials
图片[8]-深度|打破次元边界,Xmax AI发布世界首个虚实融合的实时交互视频模型X1,开启视频交互新范式-AI Express News

<原文链接:https://mp.weixin.qq.com/s/hmpdWiKTFMD3yCVUYeBikg

© 版权声明
THE END
喜欢就支持一下吧
点赞8 分享
评论 抢沙发

请登录后发表评论

    暂无评论内容