吐槽一下AI学习进度,AI视频这块,简直快要卡死我了
本帖最后由 qhhzlyx101 于 2026-1-23 10:21 编辑目前人物一致性如何搞,基本搞定,这个不是什么大问题,
目前其实AI对于普通人最友好的就是AI生图,纯生图真不是什么困难的地方,这个基本上就是只要你学会了,就可以复现,而且关键生图非常非常的便宜,几乎如果要求不是那么特别高,就是免费可以随便玩,到处都有AI生图的免费在线方式和本地部署。
好了问题来了,
如何让图片动起来,
这一步其实也不是那么困难,因为如果你肯花钱的话,各大生图在线平台都有视频生成的大模型(比本地部署的Wan系列,最近新出来的LTX2,还要腾讯的混元视频等要好很多)不要相信什么本地视频模型更可控,生成效果更好这张屁话,亲自试验过,本地的5秒视频,显存24G,内存64,虚拟内存给了近200G,需要3分钟,然后几十G,上百G的数据一股脑的往你的硬盘里装进去又释放出来,这个过程对你的电脑硬件尤其是硬盘的伤害程度太可怕了,你一个固态硬盘2T的4T的,还要内存条多少钱?坏掉了那就真坏了,(我怀了一个硬盘,1个内存条,损失惨重。)
所以AI视频目前我个人只推荐在线生成,无论是你去云平台买算力也好,还说去那些AI在线视频生成,反正不要在本地生视频了,你本地480p,720p的都需要几分钟(无法商用)商用至少1080p,你多好的配置能带的动一直生1080p的AI视频?显卡坏了咋办?报修吗?
当然单纯让图片动起来其实并不难,不会写提示词都可以问AI
关键还说5秒,10秒,15秒的短视频没意义,一个视频你需要有角色设定,场景设定,关键还要有剧本,
我是指那种长度在1分钟以上,我在B站这次的AI视频活动里看到了3分钟的居多,还要一些5分钟,11分钟,甚至20多分钟,30多分钟的,然后亲自加群和评论区问过他们,没有一个是用comfyui的wan2.2,LTX2这些开源模型做的,用的最多的,首推可灵(在动作戏和快速镜头切换,保持一致性上是目前所有AI视频里最强),其次是海螺,然后是即梦,至于sora2和谷歌的vo3,都比较少。至于阿里新出的wan2.6这个目前还没看到有什么成品。
但是这些其实都是你只需要开会员就可以搞定的,镜头运镜这些都看你个人,这些都不是最大困难。
最大困难始终还是抽卡,视频的抽卡问题就是成本太高了,图片一张不行抽第二张,四张一起抽,时间也不长,一分钟抽好几回,视频一个生成过程就是好几分钟,你反复抽个四五次半个小时过去了,
当然视频这块比图片的提示词难写的多,尤其是光线,运镜,动作这块,简直遍地天坑。
但是这些还不是主要的,主要还说第一个剧本,AI视频最重要的最核心的就是一个适合的好剧本,
什么叫适合的好剧本,就是这个剧本的情节怎么写,这个其实完全看个人,这是最大的关卡,有时候AI是完全无法理解你的想法的,
然后剧本有了,角色设定也搞定了(3分钟视频需要1000张次图吧,反正你如果想要做一个最简短的小故事3分钟左右,至少准备1000张各种图)AI分镜脚本也写好了,镜头语言也写好了,然后就进入到了反复抽卡,不断的抽卡,拼命的抽卡的重复性活动。
这些都搞好了,难的来了
第一视频配乐(这个AI生成也好,你自己找免费素材也好,这都是非常巨大的工程,绝不比之前的选图容易)因为你的音乐要符合你的故事
音效,有背景音乐还不够,你得有音效,比如刀剑砍击的声音,放在那里,那些动作场景(目前就可灵和海螺这方面厉害)的音效呢?
然后配音,配音包括旁白,角色的语音克隆和对口型,这也是一个超级大坑,如果你不想千篇一律的AI假人音,就特别难。
然后多角色场景配音也是个特别麻烦的地方,反正我是一头雾水,
这些都搞定了,接下来最麻烦的来了,剪辑!
你需要把视频,音乐,音效,配音剪辑成一个完整的视频,这里面需要学的东西特别多,什么蒙版,转场特效,蒙太奇,快速剪辑切换手法等等。
这些都搞定后,你的两三分钟的视频(一般你得准备至少10分钟的视频作为素材来剪辑),发到抖音,B站等平台上,然后没有推流没有点击,大概就是这样;
我可以肯定的说,AI生图是每个人都可以玩的,AI生成程序也是每个人都可以搞定的,AI生个网页应用,AI生成一篇文章,AI翻译等都不难。
但是目前我发现最难的就是AI视频,这玩意整个具体流程和步骤,一个人累死了,能搞定也就是做个几分钟的小视频试试水。
而且视频生成这一块,千万别用自己的电脑,那太坑了,尤其现在内存和硬盘在疯涨时候。
大致就是这样,另外我这是纯主观个人吐槽。
素的Ai视频对电脑的需求很高Ai生图更友好一些
电脑内存这些跟着涨价烦死了移动硬盘 这些也跟着疯涨无语了 AI视频消耗的资源肯定是AI图片的好几倍,视频剧本找好的更难,要是很容易的话,网上就没那么多垃圾剧集了 ai视频的要求还是比较高的惹,操作太繁琐了弄一个视频zuzanna比较多的10:38 當初稍微摸了一下就覺得AI影片這塊普通人玩不起來,
BGM跟剪接就卡死無經驗的人,
想學投入比學AI跑圖還大.=_= 是这样的,能从生图到生视频已经很大转变了,感觉还需要等发展 如果有详细的教学视频就好了,我也想生成属于自己xp的擦边视频,嘿嘿 完全同意,AI视频制作流程太复杂了,光是剧本和配音就让人头疼,更别说后期剪辑了。 原来本地部署这么伤电脑,那么高的配置坏了真的是心痛 忘记本地部署会伤硬盘了,光想着跟以前矿卡类似
这样一人一个ai就更难了 生图对我来说目前就满足需要了,视频啥的想想就复杂 ai视频的学习量笔记比较大 慢点好像也正常吧 也有在b站看到那种长视频,不过有的感觉单纯是一堆短视频拼接起来的……不过这才发展多久哇~再等等咯 AI生成视频感觉还是得像日本动画一样一拍二、一拍三,否则全是原画水平的性能开销短期内估计解决不了。 视频本来就有点门槛,难一点很正常,慢慢学习就好 感觉AI生成视频还是在起步阶段,现在消耗太大了 越是需要复杂约束的就越难,现在AI还素理解不了什么叫艺术,只能逻辑推理,素这样的啦 混AI区的来说个话
[*]本地跑模型(14B)不是很费RAM & CPU (这些基本只在最后阶段把算好的数据转成文件才会用到),事实上我的机器跑图生视频的时候GPU占用到98% CPU一个核都没用满,且RAM和平常差距也不是很大
[*]SSD 写入寿命是存在的,但“跑本地视频就必坏硬盘”有点夸张了,并且合理的配置可以避免(最少降低)高频次swap使用
[*]如果是自己写的框架,那么模型可以一直在GPU里面,不需要一次生成load free一次(而且GPU本身就是为了快速高强度运算设计的,频繁读写不是它寿命的短板)
[*]本地优势恰恰是两大管饱且适合拿来磨练prompt, 批量生成试验一个prompt的一致性+正确性,这种方法可以快速迭代prompt,然后你:
a)可以拿到最好,生成一致性最好的prompt
b) 生成的图片要是真的好,它的seed和各种配置+prompt你是有的, 同样的seed生成一个批次的高质量图片很稳
c) 你甚至可以把图片清晰度降低,达到更快的生成速度,出了好的seed/ prompt 对以后高质量的生成影响很少
[*]硬盘+内存(RAM VRAM)寿命问题线上服务也会转嫁给消费者,不存在能在这种地方占便宜的说法
[*]Prompt可不太好问AI (尤其是色图),AI给的prompt其实也不好,原因如下(和谐问题就不说了):
a) prompt 的诀窍在于 想好构图/视频脚本, 然后设计触发词 尽量缩小可以被预测的概率空间大小,写的好的话,模型抽取结果的概率空间很小,这样你的prompt每次生成的结果都是大致一致的(不会说一个批次每个都不一样),这种东西AI很难帮到你,事实上我现在发现的最好的方法就是本地大批量低质量生成试错+迭代
c) 你向AI转述你要的画面,你也要构思好你要的东西,而且还要能够大致叙述出人物细节姿势啥的,能写出来就已经是prompt雏形了
d) 分镜,光线,镜头移动需要根据生成结果调整,AI的建议不可能一次到位(AI甚至没有你的脑内画面,不知道你要啥)
[*]prompt重中之重,写不好线上AI一样崩
[*]概率问题,本地部署本来就考验用户的计算机知识,就算是傻瓜式的comfyUI也需要解决环境问题,且safetensor需要自己找,workflow需要自己建,这种情况下你看到多数up主用线上AI是很符合统计学规律的(UX降低用户进入门槛,正如手机是如何打败电脑的一般)
[*]不需要钱,你的所有试错都只有电费+电脑成本,出一张好图片/prompt/学习如何写好prompt/学习各种配置差距 需要巨量的生成数,免费生成在这里的优势我不必赘述
[*]本地模型意味着模型是开源的,你可以不受任何监管在这个模型上做你想做的,包括训练Lora, 寻找更好的workflow,这是闭源模型难以触及的优势,我可以轻松找到某个艺术家的Lora, 像消音器一样套在Wan上面然后射出这个艺术家风格的子弹,也可以用我自己找到的数据训练Lora来达到模型定制的目的。闭源模型,尤其是不能自定义workflow的模型无法做到以上所有
意料之中……估计想快速的做出来要更好的更专业的设备吧。毕竟AI只是辅助帮了你一些忙,剩下的工作肯定只能人力慢慢的啃完,熟练之后能稍微好点? 看着就头晕哇,好难学。感觉比纯手画一个动画简单不了多少。