这一节是用AI来做一个自己的短片,一般来说,视频生成的大致流程是:
- 使用ChatGPT等LLM模型,写分镜剧本;
- 使用SD, MJ等软件画图;
- 利用SVD, Pika, Runway等软件生成视频。
下面是我的尝试:
- 使用Google Gemini生成分镜剧本。以下是我的prompt:
帮我写一个故事的分镜镜头。
这个故事是关于一个亚洲少年向盆景大师学习盆景制作,然后参加盆景比赛并最终获奖的故事。
Gemini生成的结果:
故事分镜镜头
场景: 一个宁静的盆景园
人物:
少年:16岁,对盆景充满热情
大师:70岁,经验丰富的盆景大师
镜头 1
外景:阳光明媚的早晨
少年骑着自行车来到盆景园,看到大师正在修剪一盆松树。
少年:大师,您好!我来学习盆景制作。
镜头 2
近景:大师慈祥地看着少年
大师:你好,孩子。你愿意学习盆景,我很高兴。
镜头 3
中景:少年和大师在盆景园里学习
大师教少年如何挑选树苗、修剪枝叶、蟠扎造型等。
少年认真学习,进步很快。
镜头 4
近景:少年精心制作一盆盆景
他用几个月的时间,将一棵普通的树苗培育成一盆精致的盆景。
镜头 5
外景:盆景比赛现场
少年带着他的盆景参加比赛,与来自各地的选手同台竞技。
镜头 6
中景:评委们仔细观赏少年的盆景
他们对少年的作品赞赏不已。
镜头 7
近景:少年获得比赛一等奖
他站在领奖台上,脸上洋溢着喜悦的笑容。
镜头 8
外景:夕阳西下,少年和大师在盆景园里聊天
少年:大师,谢谢您的教导。我一定会继续努力,成为一名优秀的盆景师。
镜头 9
近景:大师欣慰地看着少年
大师:我相信你一定会成功的。
镜头 10
远景:少年和大师在盆景园里忙碌的身影
他们将继续为盆景艺术贡献自己的力量。
镜头 11
画面逐渐模糊,故事结束
备注:
以上只是故事的分镜镜头,具体的细节可以根据需要进行调整。
故事的主题可以是少年对梦想的追求,也可以是师徒之间的传承。
希望这个故事能够给你带来一些启发。
做简单修改(但其实这两处修改并不会影响生成的图/视频):
人物:
16岁-->18岁
镜头4
他用几个月的时间-->他用几年的时间
用Gemini将中文翻译成英文,然后使用Modelscope的AnimateDiff库做text to video(跳过文生图再生成视频,直接文生视频一步到位),脚本如下:
import torch
from diffusers import MotionAdapter, AnimateDiffPipeline, DDIMScheduler
from diffusers.utils import export_to_gif
from modelscope import snapshot_download
def get_frames(prompt):
output = pipe(
prompt=prompt,
negative_prompt="bad quality, worse quality",
num_frames=16,
guidance_scale=7.5,
num_inference_steps=25,
generator=torch.Generator("cpu").manual_seed(42),
)
frames = output.frames[0]
return frames
prompt_base_description = "masterpiece, bestquality, highlydetailed, ultradetailed, "
prompt_shot1_1 = (
prompt_base_description +
"Sunny morning, " "An 18 year old boy is walking to a bonsai garden, "
)
prompt_shot1_2 = (
prompt_base_description +
"Sunny morning, " "Bonsai garden, " "An old bonsai master is trimming a pipe tree"
)
model_dir = snapshot_download("Shanghai_AI_Laboratory/animatediff-motion-adapter-v1-5-2")
adapter = MotionAdapter.from_pretrained(model_dir)
model_id = snapshot_download("wyj123456/Realistic_Vision_V5.1_noVAE")
pipe = AnimateDiffPipeline.from_pretrained(model_id, motion_adapter=adapter)
scheduler = DDIMScheduler.from_pretrained(
model_id, subfolder="scheduler", clip_sample=False, timestep_spacing="linspace", steps_offset=1
)
pipe.scheduler = scheduler
pipe.enable_vae_slicing()
pipe.enable_model_cpu_offload()
# Shot 1-1
# frames = get_frames(prompt_shot1_1)
# export_to_gif(frames, "animation.gif")
# !mv animation.gif shot1_1.gif
# Shot 1-2
frames = get_frames(prompt_shot1_2)
export_to_gif(frames, "animation.gif")
!mv animation.gif shot1_2.gif
注:
- 这里本来想直接根据shot 1的英文场景描述做出视频,但发现AnimateDiff目前的模型
animatediff-motion-adapter-v1-5-2
没办法生成如此复杂的场景。于是对shot 1再做场景切分,变为两幕; - shot 1-1本来是少年骑车到盆景园,但反复尝试生成的都是少年在盆景园里骑车,看起来感觉有点鲁莽,于是将“骑车”改为“走”:
An 18 year old boy is walking to a bonsai garden
- 生成的视频往往不能完全涵盖想要的关键信息,比如,shot 1-1,即使是上面简单的这句描述,也经常会生成“只有一盆盆景”或“只有一个盆景园”的场景,“An 18 year old boy”完全不在画面中。此时,需要不断更改prompt描述或随即种子(纯纯“抽卡”了属于是😂)才有可能挑选到心仪的视频。
不合格视频示例(画面中只有一个bonsai,而“An 18 year old boy”完全不在画面中):
下面是做的shot1-1和shot1-2:
-
shot1-1:
-
shot1-2:
按照如上的方法,不断对shot进行切分,生成视频,然后使用视频剪辑工具(剪映等),做后期加工(拼接、加字幕等)
以上,做个记录,也是抛砖引玉。