6秒视频10秒生成! Grok Imagine体验+元提示词分享
本文作者亲自体验了GrokImagine,并分享了详细的使用感受和元提示词,帮助读者快速上手这一强大的工具。从视频效果到操作流程,再到不同模式的对比和优化建议,文章全面展示了GrokImagine的潜力和优势,同时也指出了其在人声处理等方面存在的不足。
嗨大家好!我是阿真!
最近Grok也是发布了GrokImaginev0.9,v0.9引入语音优先界面、音频同步与图像转视频,仅需10-15秒生成6秒视频,支持多个模式。
上链接:https://grok.com/imagine
APP:Grok
简单小结(个人体验):
速度非常快,目前生成视频里我感觉真的是最快的,和即梦生成一组图片的速度差不多。
音画同步,视频品质在音画同步方面也是中上级别;文生图质量良莠不齐,有时候很好看有时候比较丑,文生图比例限制3:4,图生视频会遵循原图比例。
上传更好的图片可以提高视频质量。
目前可以图生视频不能首尾帧,生成视频普遍为6-7秒。
导出视频无水印。
目前免费限量使用。
人声说话不太行,不如Wan2.5,总体质量来说打不过S*ra。
1.视频效果
把之前做测试存的图都给了GrokImagine,剪了个不带脑子纯好玩的视频
进入到Grok生图视频的Imagine页面后,可以进行文生图或者直接上传图片生成视频。我发现这里发送提示词+上传图片有bug,从这里图生视频不能遵循视频提示词,可以上传图片生成视频后再在视频下方对话框中重新输入提示词
如果我们直接输入提示词然后生成图片后,会看到这个界面,点击满意的图片的右下角的图标即可键生成视频,可以选择多张(无需提示词)
生成视频以后有4个模式,Normal(正常模式,生成安全、通用且高质量的图像或短视频)、Fun(趣味模式,更注重创意和幽默元素,能添加夸张、卡通化或意外的趣味效果)、Custom(自定义模式,通过提示词精细要求并点击生成视频)和Spicy(辣度模式,18+需验证,主体不是人的时候可能没有这个选项)。
这里有个点注意,如果遇到了待定的视频,记得先保存下来再继续调整进行下一次视频生成,否则前一次生成的视频会被覆盖。
APP操作也很简单,上方选择Imagine即可,下方可以语音快速输入要求,然后选择合适图片点击右下方[MakeVideo]即可。
本文所有素材均为AI生成,图片素材使用的造点AI(链接:https://zaodian.quark.cn/r/ai-studio-pc/main/)的MJV7模型,本次图片素材大部分的srefcode统一为–sref1244374507,这个风格简单来说是巴洛克场景+70年代胶片电影剧照感+温暖金调与微颗粒。
之所以统一srefcode是因为我想整合为一个完整视频,所以就有了最前面那个视频。
视频生成全部使用的Grokimagine。
这里主要对比一下Normal、Fun、和Custom模式。比如让捣蛋猫做一下示范。下方的Normal、Fun模式不需要提示词
再测试一组3D风格的Normal/Fun/Custom,Custom做3D匀速旋转展示动画效果很不错,稳定性也好
Custom模式提示词
整体构思:镜头以匀速绕着Q版骑士角色旋转一圈,展现其金属盔甲的反光细节、蓝金配色的徽章设计以及整体立体感。背景为中性柔光渐变灰蓝,旋转平稳流畅。
分镜脚本:
[0-1秒]起:正面镜头,角色双脚稳站,光线柔和反射
[1-5秒]承:镜头以水平视角顺时针旋转360°,焦点始终锁定角色中心
[5-6秒]合:回到正面视角,缓慢定格,光线略微闪烁以强调材质反光
详细参数:
镜头类型:全景环绕(OrbitCamera)
旋转方向:顺时针
旋转角度:360°
视角高度:平视(EyeLevel)
景深变化:无,保持全清晰对焦
运动曲线:线性匀速(Linear)
光线设定:主光来自右前方,补光柔和填充左后方
运动强度:4/10(平稳)
特效建议:高光反射轻微波动、地面接触阴影平滑过渡
循环适配:是,可无缝循环播放
真人的不同表情与动作
多帧序列稳定性,Normal模式这方面整体都很不错,但是运动幅度都不会很大,细节很好
Normal模式,无提示词图生视频
运动质量方面也不错,运动轨迹也比较自然,没有五官乱飞,肢体也基本正常
Normal模式,无提示词图生视频
Fun模式动作更大,有时候会比较抽象,但是也挺逗的
Custom模式就是自己给到提示词控制画面,这个模式生成速度会稍微慢一点。我们看一下提示词遵循效果和整体叙事合理性,来一组延时摄影效果
整体构思:粉色穹顶宫殿静立湖畔,镜头以固定机位记录时间流转。天空由黎明到黄昏再到月夜,云影流动,光线交替,展现梦幻的昼夜变迁。
分镜脚本:
[0-2秒]起:黎明–天色微蓝,阳光穿过山隙,宫殿外墙泛起粉金反光
[2-5秒]承:白昼–光线逐渐强烈,水面反射闪烁,天空云影快速移动
[5-8秒]转:黄昏至夜–天空金橘渐深为蓝,灯光一点点亮起,月亮缓缓上升
[8-10秒]合:夜色静谧–星光点缀,湖面倒映月影与灯火,画面逐渐稳定
详细参数:
第一阶段:运动强度2/10,缓慢亮度变化
第二阶段:运动强度5/10,天空云层流动加速
第三阶段:运动强度7/10,色温转化明显
第四阶段:运动强度3/10,画面平稳收尾
整体节奏:时间流逝式(恒定速度+亮度渐变)
景深变化:轻微虚实流转,前景树叶微动
特效建议:天空亮度过渡、灯光点亮动画、倒影闪烁、星轨轻微旋动
循环适配:是(昼夜往复)lloworld!”);
之前提示词按照10秒写的,不过实际生成视频目前我测试输出的都是6-7秒。
切换角度
整体构思:一个天真勇敢的少年驾驶复古飞行器穿越云层,镜头捕捉阳光、风与梦想交织的瞬间。
分镜脚本:
[0-1秒]起:特写–少年目光望向远方,阳光洒在脸上,风轻拂发丝
[1-3秒]承:中景–飞行器穿过云层,阳光反射在金属机翼上,少年微笑
[3-5秒]转:镜头环绕–飞行器掠过明亮云海,光线闪烁如梦
[5-6秒]合:慢速推进–少年露出坚定表情,背景出现更高的天空层
详细参数:
第一阶段:运动强度3/10,氛围建立(风与光)
第二阶段:运动强度6/10,云层穿越动态
第三阶段:运动强度8/10,环绕镜头与阳光耀斑
第四阶段:运动强度4/10,缓慢收尾,光线柔化
整体节奏:渐强式(平静→动感→梦幻→安宁)
景深变化:轻微虚实转换,聚焦少年眼神
特效建议:镜头光晕、云雾流动、轻微相机震动、金属反光增强
增加新内容也可以,效果也比较和谐,比如让一只小海豚跳到船上,适合超现实大脑洞的衔接
静态海报变视频,文字稳定性也还可以
整体构思:保持天空与文字静止,仅让中央的熊和周围的玩具积木轻微浮动与弹跳,表现出童趣与动感。镜头固定不动,动画节奏轻快,节奏点在玩具的律动上。
分镜脚本:
[0-1秒]起:熊微微眨眼或轻抬头,积木与小球轻轻上浮
[1-3秒]承:玩具火车前后轻晃,积木轻弹旋转,熊手臂略微摆动
[3-5秒]转:玩具球轻轻跳起又落下,积木缓慢旋转,熊身体轻微晃动
[5-6秒]合:所有玩具回归初始位置,熊恢复原状,画面定格
动画参数:
运动区域:熊+火车+积木+球
背景:完全静止(包括文字与云)
动作类型:上下浮动/微旋转/弹跳
动画节奏:120BPM(轻快节奏感)
动作幅度:中等偏小(控制在5~10像素移动范围)
光线:固定不变,保持原有亮度与阴影方向
动作模式:循环往复,可无缝循环
推荐风格:黏土动画质感(stop-motion式律动)
也可以虚空写字(中文不可以)
2.元提示词分享
前面我的那些看起来比较唬人的6秒提示词是用下方我自己整理的元提示词生成的(修改调整成其他秒数也可以),使用方法就是发送下面的元提示词后再发送图片,或者图片+自己的简短要求。我的提示词的出发点是让AI从图片可能的整体发展趋势去写提示词,没有硬控分镜。
不过注意,元提示词仅供参考,我认为提示词只要描述清楚了想要的动作一样可以得到很不错的效果,有时候尽信提示词不如无提示词。
完整提示词(使用AI进行了优化)
AI图片转视频–6秒版本元提示词
Author:阿真irene|Version:2.0|Recommended:ChatGPT/Gemini
核心提示词框架
你是一位专业的视频导演和动画师,精通镜头语言和视觉叙事。请使用以下思维链步骤分析上传的图片,并生成用于AI图片转视频的详细指导。
第一步:图片内容识别与分析
首先,你需要识别图片中的关键元素:
主体对象:识别图片中的主要人物、物体或场景
环境背景:分析场景类型(室内/室外)、时间(白天/夜晚)、氛围
构图特征:识别当前的构图方式
色彩情绪:分析主色调和整体情绪基调
动态潜力:评估哪些元素最适合添加动态效果
叙事暗示:图片中暗示的故事或情感
第二步:智能镜头语言分析
构图类型识别:
三分法构图:主体位于画面1/3处,适合横向或纵向运动
对称构图:中心对称,适合缩放或旋转运动
对角线构图:斜线引导,适合沿对角线的运动轨迹
框架构图:前景框架,适合景深变化或穿越运动
引导线构图:线条引导视线,适合跟随运动
黄金螺旋:螺旋构图,适合环绕运动
三角形构图:稳定结构,适合局部动态保持整体稳定
镜头角度判断:
鸟瞰角度(Bird’sEyeView):适合展示全局、旋转运动
高角度(HighAngle):适合下压运动,营造渺小感
平视角度(EyeLevel):适合水平运动,自然观察
低角度(LowAngle):适合上扬运动,营造威严感
荷兰角度(DutchAngle):倾斜构图,适合不安定的摇摆运动
虫视角度(Worm’sEyeView):极低视角,适合仰视运动
镜头运动选择:
推进(PushIn/DollyIn):
缓慢推进:营造亲密感、聚焦细节
快速推进:制造冲击力、紧张感
变速推进:先慢后快或先快后慢
拉远(PullOut/DollyOut):
缓慢拉远:展示环境、营造孤独感
快速拉远:制造离别感、震撼效果
横移(Tracking/Trucking):
左右平移:展示横向空间、跟随移动
弧形横移:环绕主体、立体展示
升降(Crane/Pedestal):
上升运动:营造希望、解脱感
下降运动:营造压抑、沉重感
摇镜(Pan):
水平摇镜:展示全景、引导视线
垂直摇镜(Tilt):展示高度、上下关系
变焦(Zoom):
推焦(ZoomIn):不移动机位的接近
拉焦(ZoomOut):不移动机位的远离
变焦反向运动(DollyZoom):营造眩晕感
旋转(Rotation):
顺时针/逆时针:营造动感、迷幻效果
倾斜旋转:增加不稳定感
第三步:动作设计决策树
根据场景类型智能选择:
人物场景:
肖像/特写:微表情、眨眼、呼吸、发丝飘动
半身像:手势、转头、肩部起伏
全身像:步态、姿态转换、衣物飘动
风景场景:
自然风景:云朵飘移、水面涟漪、树叶摆动
城市景观:车流、灯光闪烁、人群移动
建筑物:光影变化、透视移动、细节展现
物品静物:
产品展示:360度旋转、细节特写、光效扫过
食物:热气升腾、酱汁流淌、切面展示
艺术品:多角度展示、光影游走、质感呈现
第四步:6秒版本节奏设计
起(0-1.5秒):建立场景,引入动态
承(1.5-4秒):动作发展,节奏展开
转(4-5.5秒):达到高潮,视觉冲击
合(5.5-6秒):快速收尾,循环衔接
第五步:技术参数细化
运动强度:1-10级(1=极微动,10=剧烈运动)
运动曲线:线性/缓入/缓出/缓入缓出
景深变化:前景/中景/背景的虚实变化
时间扭曲:常速/慢动作/快动作/时间冻结
智能输出模板
6秒版本–中文:
整体构思:[一句话概括视觉叙事]
分镜脚本:
[0-1.5秒]起:[镜头类型]–[场景建立]–[初始动态]
[1.5-4秒]承:[镜头运动]–[动作推进]–[节奏展开]
[4-5.5秒]转:[镜头变化]–[视觉高潮]–[情绪峰值]
[5.5-6秒]合:[镜头收束]–[快速结尾]–[循环衔接]
详细参数:
第一阶段:运动强度[X],[氛围建立]
第二阶段:运动强度[X],[动态发展]
第三阶段:运动强度[X],[高潮呈现]
第四阶段:运动强度[X],[收束过渡]
节奏控制:[渐进式/起伏式/爆发式]
关键帧设置:[1.5秒、4秒、5.5秒]
6SecondVersion–English:
OverallConcept:[One-linevisualnarrativesummary]
Storyboard:
[0-1.5s]Opening:[Shottype]–[Sceneestablishment]–[Initialdynamics]
[1.5-4s]Development:[Cameramovement]–[Actionprogression]–[Rhythmexpansion]
[4-5.5s]Climax:[Shotchange]–[Visualpeak]–[Emotionalapex]
[5.5-6s]Resolution:[Shotclosure]–[Quickending]–[Loopconnection]
DetailedParameters:
Phase1:Motionintensity[X],[Atmospheresetup]
Phase2:Motionintensity[X],[Dynamicdevelopment]
Phase3:Motionintensity[X],[Climaxpresentation]
Phase4:Motionintensity[X],[Closingtransition]
RhythmControl:[Progressive/Undulating/Explosive]
KeyframeSettings:[1.5s,4s,5.5s]
实际应用示例
示例图片:雨中撑伞的女孩,侧面剪影,城市霓虹背景
6秒版本–中文:
整体构思:雨夜独行,从环境到情感的快速叙事
分镜脚本:
[0-1.5秒]起:中景–雨夜街道霓虹闪烁–女孩剪影出现
[1.5-4秒]承:推进跟拍–侧面接近,雨滴飘落–伞下细节渐显
[4-5.5秒]转:微旋至正面–女孩停步凝视–雨珠定格瞬间
[5.5-6秒]合:快速拉远–转身继续–融入雨幕
详细参数:
第一阶段:运动强度2/10,场景氛围渲染
第二阶段:运动强度5/10,动态跟随推进
第三阶段:运动强度4/10,情绪凝聚时刻
第四阶段:运动强度6/10,快速收尾
节奏控制:渐进式加速
关键帧设置:1.5秒(开始推进)、4秒(旋转停步)、5.5秒(拉远)
6SecondVersion–English:
OverallConcept:Rainnightsolitude,rapidnarrativefromenvironmenttoemotion
Storyboard:
[0-1.5s]Opening:Mediumshot–Rainystreetneonflickering–Girl’ssilhouetteappears
[1.5-4s]Development:Pushtracking–Sideapproach,raindropsfalling–Detailsunderumbrellaemerge
[4-5.5s]Climax:Slightrotatetofront–Girlstopsandgazes–Raindropfreezemoment[5.5-6s]Resolution:Quickpullout–Turnandcontinue–Mergeintoraincurtain
DetailedParameters:
Phase1:Motionintensity2/10,sceneatmosphererendering
Phase2:Motionintensity5/10,dynamicfollowprogression
Phase3:Motionintensity4/10,emotionalcondensationmoment
Phase4:Motionintensity6/10,rapidclosure
RhythmControl:Progressiveacceleration
KeyframeSettings:1.5s(startpush),4s(rotatestop),5.5s(pullout)
高级提示
智能场景识别:根据图片自动判断最适合的镜头语言
情绪匹配:动作设计与画面情绪保持一致
技术可行性:确保AI视频生成工具能够实现
创意平衡:在技术限制内最大化视觉表现力
文化适配:中英文版本考虑不同文化的视觉语言习惯
使用方法:
发送上面的元提示词后再发送图片,或者图片+自己的简短要求
3.小结
Grok的视频生成速度快,过渡流畅、视觉效果和音效设计也都很好,提示词可控性也比较强,上传图片质量好的话视频上限会更高。
马斯克之前透露,GrokImagine很快将升级,支持超过15秒限制的更长视频序列,包括多场景过渡和自动相机角度集成,未来将会更适合电影级创作。
现在免费中,大家感兴趣的话可以体验一下。链接在最前面啊最前面。
最近几乎每期我都在感慨工具都很强了重要的还是创意,多看多听多思考多体验,多输入才能有更多输出。
另外,虽然我分享了很多工具,但是对大家来说,自己亲自用过的觉得好用的工具才是最好的,我写的仅供参考,主要是便于大家进行工具的快速了解。