吐槽一下AI学习进度，AI视频这块，简直快要卡死我了

qhhzlyx101 · 发表于 2026-1-23 10:21:07

目前人物一致性如何搞，基本搞定，这个不是什么大问题，
目前其实AI对于普通人最友好的就是AI生图，纯生图真不是什么困难的地方，这个基本上就是只要你学会了，就可以复现，而且关键生图非常非常的便宜，几乎如果要求不是那么特别高，就是免费可以随便玩，到处都有AI生图的免费在线方式和本地部署。
好了问题来了，
如何让图片动起来，
这一步其实也不是那么困难，因为如果你肯花钱的话，各大生图在线平台都有视频生成的大模型（比本地部署的Wan系列，最近新出来的LTX2，还要腾讯的混元视频等要好很多）不要相信什么本地视频模型更可控，生成效果更好这张屁话，亲自试验过，本地的5秒视频，显存24G，内存64，虚拟内存给了近200G，需要3分钟，然后几十G，上百G的数据一股脑的往你的硬盘里装进去又释放出来，这个过程对你的电脑硬件尤其是硬盘的伤害程度太可怕了，你一个固态硬盘2T的4T的，还要内存条多少钱？坏掉了那就真坏了，（我怀了一个硬盘，1个内存条，损失惨重。）
所以AI视频目前我个人只推荐在线生成，无论是你去云平台买算力也好，还说去那些AI在线视频生成，反正不要在本地生视频了，你本地480p，720p的都需要几分钟（无法商用）商用至少1080p，你多好的配置能带的动一直生1080p的AI视频？显卡坏了咋办？报修吗？
当然单纯让图片动起来其实并不难，不会写提示词都可以问AI
关键还说5秒，10秒，15秒的短视频没意义，一个视频你需要有角色设定，场景设定，关键还要有剧本，
我是指那种长度在1分钟以上，我在B站这次的AI视频活动里看到了3分钟的居多，还要一些5分钟，11分钟，甚至20多分钟，30多分钟的，然后亲自加群和评论区问过他们，没有一个是用comfyui的wan2.2，LTX2这些开源模型做的，用的最多的，首推可灵（在动作戏和快速镜头切换，保持一致性上是目前所有AI视频里最强），其次是海螺，然后是即梦，至于sora2和谷歌的vo3，都比较少。至于阿里新出的wan2.6这个目前还没看到有什么成品。
但是这些其实都是你只需要开会员就可以搞定的，镜头运镜这些都看你个人，这些都不是最大困难。
最大困难始终还是抽卡，视频的抽卡问题就是成本太高了，图片一张不行抽第二张，四张一起抽，时间也不长，一分钟抽好几回，视频一个生成过程就是好几分钟，你反复抽个四五次半个小时过去了，
当然视频这块比图片的提示词难写的多，尤其是光线，运镜，动作这块，简直遍地天坑。
但是这些还不是主要的，主要还说第一个剧本，AI视频最重要的最核心的就是一个适合的好剧本，
什么叫适合的好剧本，就是这个剧本的情节怎么写，这个其实完全看个人，这是最大的关卡，有时候AI是完全无法理解你的想法的，
然后剧本有了，角色设定也搞定了（3分钟视频需要1000张次图吧，反正你如果想要做一个最简短的小故事3分钟左右，至少准备1000张各种图）AI分镜脚本也写好了，镜头语言也写好了，然后就进入到了反复抽卡，不断的抽卡，拼命的抽卡的重复性活动。
这些都搞好了，难的来了
第一视频配乐（这个AI生成也好，你自己找免费素材也好，这都是非常巨大的工程，绝不比之前的选图容易）因为你的音乐要符合你的故事
音效，有背景音乐还不够，你得有音效，比如刀剑砍击的声音，放在那里，那些动作场景（目前就可灵和海螺这方面厉害）的音效呢？
然后配音，配音包括旁白，角色的语音克隆和对口型，这也是一个超级大坑，如果你不想千篇一律的AI假人音，就特别难。
然后多角色场景配音也是个特别麻烦的地方，反正我是一头雾水，
这些都搞定了，接下来最麻烦的来了，剪辑！
你需要把视频，音乐，音效，配音剪辑成一个完整的视频，这里面需要学的东西特别多，什么蒙版，转场特效，蒙太奇，快速剪辑切换手法等等。
这些都搞定后，你的两三分钟的视频（一般你得准备至少10分钟的视频作为素材来剪辑），发到抖音，B站等平台上，然后没有推流没有点击，大概就是这样；
我可以肯定的说，AI生图是每个人都可以玩的，AI生成程序也是每个人都可以搞定的，AI生个网页应用，AI生成一篇文章，AI翻译等都不难。
但是目前我发现最难的就是AI视频，这玩意整个具体流程和步骤，一个人累死了，能搞定也就是做个几分钟的小视频试试水。
而且视频生成这一块，千万别用自己的电脑，那太坑了，尤其现在内存和硬盘在疯涨时候。
大致就是这样，另外我这是纯主观个人吐槽。

蓝灯 · 发表于 2026-1-23 10:35:33

素的 Ai视频对电脑的需求很高 Ai生图更友好一些
电脑内存这些跟着涨价烦死了移动硬盘这些也跟着疯涨无语了

娱乐法师火布偶 · 发表于 2026-1-23 10:36:58

AI视频消耗的资源肯定是AI图片的好几倍，视频剧本找好的更难，要是很容易的话，网上就没那么多垃圾剧集了

凯诺斯 · 发表于 2026-1-23 10:38:56

ai视频的要求还是比较高的惹，操作太繁琐了弄一个视频zuzanna比较多的10:38

cinder · 发表于 2026-1-23 10:57:03

當初稍微摸了一下就覺得AI影片這塊普通人玩不起來,
BGM跟剪接就卡死無經驗的人,
想學投入比學AI跑圖還大.=_=

Ryota · 发表于 2026-1-23 11:00:54

是这样的，能从生图到生视频已经很大转变了，感觉还需要等发展

hm983763907 · 发表于 2026-1-23 11:10:54

如果有详细的教学视频就好了，我也想生成属于自己xp的擦边视频，嘿嘿

熊赳赳 · 发表于 2026-1-23 11:22:26

完全同意，AI视频制作流程太复杂了，光是剧本和配音就让人头疼，更别说后期剪辑了。

windowview · 发表于 2026-1-23 11:31:11

原来本地部署这么伤电脑，那么高的配置坏了真的是心痛

夏漏光微 · 发表于 2026-1-23 11:45:08

忘记本地部署会伤硬盘了，光想着跟以前矿卡类似
这样一人一个ai就更难了

因本 · 发表于 2026-1-23 12:09:52

生图对我来说目前就满足需要了，视频啥的想想就复杂

呆到自然蠢 · 发表于 2026-1-23 12:18:46

ai视频的学习量笔记比较大慢点好像也正常吧

毛茸茸兽兽 · 发表于 2026-1-23 12:23:06

也有在b站看到那种长视频，不过有的感觉单纯是一堆短视频拼接起来的……不过这才发展多久哇～再等等咯

Harukawa · 发表于 2026-1-23 12:33:04

AI生成视频感觉还是得像日本动画一样一拍二、一拍三，否则全是原画水平的性能开销短期内估计解决不了。

恒影@无爱 · 发表于 2026-1-23 12:35:53

视频本来就有点门槛，难一点很正常，慢慢学习就好

万俟 · 发表于 2026-1-23 13:41:04

感觉AI生成视频还是在起步阶段，现在消耗太大了

要饭_可怜大猫猫 · 发表于 2026-1-23 13:45:50

越是需要复杂约束的就越难，现在AI还素理解不了什么叫艺术，只能逻辑推理，素这样的啦

Ghost-in-System · 发表于 2026-1-23 13:49:37

混AI区的来说个话

本地跑模型（14B）不是很费RAM & CPU (这些基本只在最后阶段把算好的数据转成文件才会用到)，事实上我的机器跑图生视频的时候GPU占用到98% CPU一个核都没用满，且RAM和平常差距也不是很大
SSD 写入寿命是存在的，但“跑本地视频就必坏硬盘”有点夸张了，并且合理的配置可以避免（最少降低）高频次swap使用
如果是自己写的框架，那么模型可以一直在GPU里面，不需要一次生成load free一次（而且GPU本身就是为了快速高强度运算设计的，频繁读写不是它寿命的短板）
本地优势恰恰是两大管饱且适合拿来磨练prompt, 批量生成试验一个prompt的一致性+正确性，这种方法可以快速迭代prompt，然后你：

      a)可以拿到最好，生成一致性最好的prompt
      b) 生成的图片要是真的好，它的seed和各种配置+prompt你是有的，同样的seed生成一个批次的高质量图片很稳
      c) 你甚至可以把图片清晰度降低，达到更快的生成速度，出了好的seed/ prompt 对以后高质量的生成影响很少

硬盘+内存（RAM VRAM）寿命问题线上服务也会转嫁给消费者，不存在能在这种地方占便宜的说法
Prompt可不太好问AI （尤其是色图），AI给的prompt其实也不好，原因如下(和谐问题就不说了)：

      a) prompt 的诀窍在于想好构图/视频脚本，然后设计触发词尽量缩小可以被预测的概率空间大小，写的好的话，模型抽取结果的概率空间很小，这样你的prompt每次生成的结果都是大致一致的（不会说一个批次每个都不一样），这种东西AI很难帮到你，事实上我现在发现的最好的方法就是本地大批量低质量生成试错+迭代
      c) 你向AI转述你要的画面，你也要构思好你要的东西，而且还要能够大致叙述出人物细节姿势啥的，能写出来就已经是prompt雏形了
      d) 分镜，光线，镜头移动需要根据生成结果调整，AI的建议不可能一次到位（AI甚至没有你的脑内画面，不知道你要啥）

prompt重中之重，写不好线上AI一样崩
概率问题，本地部署本来就考验用户的计算机知识，就算是傻瓜式的comfyUI也需要解决环境问题，且safetensor需要自己找，workflow需要自己建，这种情况下你看到多数up主用线上AI是很符合统计学规律的（UX降低用户进入门槛，正如手机是如何打败电脑的一般）
不需要钱，你的所有试错都只有电费+电脑成本，出一张好图片/prompt/学习如何写好prompt/学习各种配置差距需要巨量的生成数，免费生成在这里的优势我不必赘述
本地模型意味着模型是开源的，你可以不受任何监管在这个模型上做你想做的，包括训练Lora, 寻找更好的workflow，这是闭源模型难以触及的优势，我可以轻松找到某个艺术家的Lora, 像消音器一样套在Wan上面然后射出这个艺术家风格的子弹，也可以用我自己找到的数据训练Lora来达到模型定制的目的。闭源模型，尤其是不能自定义workflow的模型无法做到以上所有