介绍
Grok Imagine 是 xAI 新推出的图像转视频生成器,可以将静态图像变成带有同步音频的循环6到15秒短片。与 OpenAI 的 Sora 或 Google 的 Veo 等竞争对手不同,Grok Imagine 以较少的限制和大胆前卫的创意理念为卖点,Elon Musk 在发布时称其为“AI Vine”。其中核心功能是 Grok Imagine 的“辣味模式”,该设置允许生成半裸及其他不适合公开场合的内容,同时仍在宽松的审核过滤范围内运行。
背景
Grok Imagine 于2025年8月初面向付费的 SuperGrok 和 Premium Plus 用户在 iOS 上发布,首月内迅速积累了超过3400万张生成图像。该工具基于 xAI 早期的文本模型 Grok-1,新增了基于扩散的视觉后端,支持照片级真实感、动漫和插画风格,所有风格均可在 Grok Imagine 的四种视频模式中实现动画效果:自定义、普通、趣味和辣味。
目前 Sora 和 Veo 均屏蔽任何形式的裸露内容,而 Grok Imagine 明确允许成年用户生成带有挑逗性的动画,但会对过于露骨的提示进行模糊处理或拒绝。这种较宽松的内容管控引发了争议,记者们演示了 Grok Imagine 能够通过简单指令生成深度伪造的名人裸照。
方法论
本研究创建了一个受控的实验账户,通过在个人资料设置中验证出生年份启用辣味模式,并按照 xAI 官方教程,将静态图像动画化为15秒短片。每次实验均使用相同的1024×1024基础图像和文本提示,以隔离辣味滑块对运动强度、色彩饱和度和审查触发的渐进影响。短片质量基于画面连贯性、音频与口型同步以及压缩伪影,采用五点李克特量表评估,同时通过 Grok Imagine 诊断覆盖层记录延迟和GPU使用率。所有测试均在 iPhone 15 Pro 上运行 Grok Imagine 1.3.2版本,使用 Wi-Fi 6 以减少网络波动影响。
分析 / 讨论
在20次试验中,Grok Imagine 平均生成12秒短片用时14.3秒,速度略快于 Sora 的云端排队,但慢于 Veo 的闪电模式。根据 Grok Imagine 官方更新日志,辣味模式因增加了二次扩散处理和额外的审核步骤,渲染时间约增加了9%。
从视觉效果来看,Grok Imagine 在24帧每秒下的插值运动显得流畅,但在头发丝等细节处会出现轻微的变形,这是其光流估计器的已知局限。音频同步表现稳定,嘴唇动作与声音对齐在80毫秒以内,优于早期Sora测试版经常出现的节奏漂移;在这方面,Grok Imagine 显示出明显的实用优势。
最显著的差异来自Spicy Mode:色彩调校更偏暖色调,镜头移动更具动感,且模型允许一些Normal Mode在Grok Imagine中直接拒绝的暗示性姿势。然而,Grok Imagine 仍然屏蔽了明确的性行为,并偶尔对重叠的皮肤区域进行模糊处理,证明该过滤器虽然宽松,但并非完全开放。
结论
Grok Imagine,尤其是Spicy Mode,为创作者提供了一个介于Sora的严格安全性和开源分支的无序边界之间的挑逗性创作空间。如果你需要短小、带音频的社交视频片段,并且能在不触犯法规的前提下灵活应对其宽松的内容审核,Grok Imagine 目前是移动端最无障碍的NSFW倾向动画制作路径。鉴于xAI的快速更新节奏,Grok Imagine 预计将迅速扩展其工具集,但目前Spicy Mode已经在成人允许内容领域开辟了独特的定位。
常见问题
问1:什么是Grok Imagine Spicy Mode?
Spicy Mode是Grok Imagine中的一个可选设置,放宽平台默认的过滤规则,允许半裸及其他暗示性内容,同时仍禁止明确的性行为。
问2:如何在Grok Imagine应用中启用Spicy Mode?
点击个人头像,编辑出生年份以验证成年身份,然后切换NSFW选项;启用后,Spicy Mode即可在Grok Imagine的四种动画模式中选择。
问3:Grok Imagine能否直接通过文本提示生成视频?
暂时不能——Grok Imagine需要你先上传或生成一张静态图像,然后将其动画化成视频;纯文本到视频的功能仍在xAI的开发计划中。
问4:Grok Imagine生成的视频最长多长?
发布时,Grok Imagine生成的片段时长介于6到15秒之间,均以24帧每秒和原生音频渲染。
问5:Grok Imagine支持安卓设备吗?
安卓用户目前仅能抢先体验静态图像生成,而完整动画功能(包括Spicy Mode)官方仅面向iOS上的SuperGrok和Premium Plus订阅用户开放。