|
|
混AI区的来说个话
- 本地跑模型(14B)不是很费RAM & CPU (这些基本只在最后阶段把算好的数据转成文件才会用到),事实上我的机器跑图生视频的时候GPU占用到98% CPU一个核都没用满,且RAM和平常差距也不是很大
- SSD 写入寿命是存在的,但“跑本地视频就必坏硬盘”有点夸张了,并且合理的配置可以避免(最少降低)高频次swap使用
- 如果是自己写的框架,那么模型可以一直在GPU里面,不需要一次生成load free一次(而且GPU本身就是为了快速高强度运算设计的,频繁读写不是它寿命的短板)
- 本地优势恰恰是两大管饱且适合拿来磨练prompt, 批量生成试验一个prompt的一致性+正确性,这种方法可以快速迭代prompt,然后你:
a)可以拿到最好,生成一致性最好的prompt
b) 生成的图片要是真的好,它的seed和各种配置+prompt你是有的, 同样的seed生成一个批次的高质量图片很稳
c) 你甚至可以把图片清晰度降低,达到更快的生成速度,出了好的seed/ prompt 对以后高质量的生成影响很少
- 硬盘+内存(RAM VRAM)寿命问题线上服务也会转嫁给消费者,不存在能在这种地方占便宜的说法
- Prompt可不太好问AI (尤其是色图),AI给的prompt其实也不好,原因如下(和谐问题就不说了):
a) prompt 的诀窍在于 想好构图/视频脚本, 然后设计触发词 尽量缩小可以被预测的概率空间大小,写的好的话,模型抽取结果的概率空间很小,这样你的prompt每次生成的结果都是大致一致的(不会说一个批次每个都不一样),这种东西AI很难帮到你,事实上我现在发现的最好的方法就是本地大批量低质量生成试错+迭代
c) 你向AI转述你要的画面,你也要构思好你要的东西,而且还要能够大致叙述出人物细节姿势啥的,能写出来就已经是prompt雏形了
d) 分镜,光线,镜头移动需要根据生成结果调整,AI的建议不可能一次到位(AI甚至没有你的脑内画面,不知道你要啥)
- prompt重中之重,写不好线上AI一样崩
- 概率问题,本地部署本来就考验用户的计算机知识,就算是傻瓜式的comfyUI也需要解决环境问题,且safetensor需要自己找,workflow需要自己建,这种情况下你看到多数up主用线上AI是很符合统计学规律的(UX降低用户进入门槛,正如手机是如何打败电脑的一般)
- 不需要钱,你的所有试错都只有电费+电脑成本,出一张好图片/prompt/学习如何写好prompt/学习各种配置差距 需要巨量的生成数,免费生成在这里的优势我不必赘述
- 本地模型意味着模型是开源的,你可以不受任何监管在这个模型上做你想做的,包括训练Lora, 寻找更好的workflow,这是闭源模型难以触及的优势,我可以轻松找到某个艺术家的Lora, 像消音器一样套在Wan上面然后射出这个艺术家风格的子弹,也可以用我自己找到的数据训练Lora来达到模型定制的目的。闭源模型,尤其是不能自定义workflow的模型无法做到以上所有
|
评分
-
查看全部评分
qhhzlyx101
:如果只是几秒的动图,你说的没错,但是我现在需要的是那种正常向的,可以把一个完整故事情节生成的可以连载的剧集,这个Wan2.2和新出的LTX2是满足不了要求的。这方面线上的大模型效果确实比开源要强的多。而且这是那种一天需要1分钟以上AI视频生成,几百张图里挑选配音,剪辑和后期合成的过程。如果单纯是几秒或者十几秒这种,线上肯定不方便。但是你会发现的是目前3DH动漫大部分也是用专业动画软件做的,AI色圈这里目前主要还是色图。而如果你把需要做的视频拉长到3分钟以上,甚至十几分钟那种,你再试验一下。
Ghost-in-System
:对我知道,视频生成的运算量尤其庞大,而且现在开源模型非常少(可灵模型大小甚至都是不知道的,但铁定很大),更好的视频质量意味着更好的文字理解能力,时间空间理解来增强视频连续性(时间序列也还是一个活跃的研究领域),AI生成配音我同学去年12月才在NeurIPS发了视频生成配音的研究,这其实也在研究当中(现在的其实不是很好)。这些都需要更大更好的AI架构(这种在云上面跑无可厚非)。但是作为一个坚持开源的研究者来说,开源模型(以及开源衍生出来的社区)的吸引力不可拒绝,而且本地也确实是学习AI生成的最佳场所
-
|