Stable Diffusion作为一个强大的文本到图像的扩散模型,在短短几年内发布了多个衍生版本。以下是对其衍生版本及本地化部署选择的详细分析:
一、Stable Diffusion衍生版本
1.Latent Diffusion
由CompVis开发,包含文本到图像和inpainting功能,基本上可以被视为Stable Diffusion 1.0的前身。
当Latent Diffusion演变为Stable Diffusion后,该版本就没有再进行更新。
2.Stable Diffusion 1.x系列
Stable Diffusion 1.1:以256x256分辨率训练237,000步,以512x512分辨率训练197,000步。
Stable Diffusion 1.2:使用512x512分辨率的515,000步,并使用laion-improved-aesthetics数据集。
Stable Diffusion 1.3:在1.2的基础上进行了改进,在512x512分辨率下增加了195,000个步骤,文本调节减少了10%。
Stable Diffusion 1.4:同样基于1.2,但以512x512分辨率和laion-aesthetics v2 5+数据集进行了225,000步训练,并减少了类似的文本调节。
Stable Diffusion 1.5:RunwayML于2022年10月发布,是1.2的增强版,使用laion-aesthetics v2 5+数据集,以512x512分辨率训练了595,000步,成为最广泛使用的微调版本。
Stable Diffusion 1.6:2023年11月在Stability AI开发者平台发布,只能通过Stability AI开发者平台的v1 API使用,是Stable Diffusion 1.5的微调升级版,据说能生成更高质量的图像。
3.Stable Diffusion 2.x系列
Stable Diffusion 2.0:最初在256x256分辨率下进行了550,000步训练,随后在512x512分辨率下进行了850,000步训练,并在768x768分辨率下进一步微调了150,000步。
Stable Diffusion 2.1:2.0的微调版本,增加了55000个步骤和额外的155000个微调步骤。
4.Stable Diffusion XL(SDXL)
Stable Diffusion XL:2023年6月发布,与之前的版本相比有了显著改进。它在256x256分辨率下训练了600,000步,在512x512分辨率下训练了200,000步,擅长生成高达1024x1024像素的图像,并支持LoRA和ControlNet。
Stable Diffusion XL 0.9 base/refiner:基础版/精调版,与最终版本相比图像成像质量较低。
Stable Diffusion XL 1.0:正式发布,具有卓越的文本理解和图像生成功能。
Stable Diffusion XL Beta 2.2.2:通过Stability AI开发者平台的API接口独家提供,是SDXL模型的微调迭代版本,功能更强。
SDXL Turbo:2023年11月推出,利用潜在一致性模型(LCM)将生成步骤从通常的3040步减少到14步,但仅限于生成清晰度稍低的512x512图像。
SDXL Lightning:紧随SDXL Turbo之后推出,可提供更快的生成时间和高质量的结果,因其高效性而受到许多开发人员的青睐。
5.其他衍生版本
Stable Video Diffusion(SVD):2023年11月由Stability AI公司推出,可从单张图像生成短动画,且不会出现闪烁问题。SVD-XT是经过对SVD进行微调后的版本,能以相同的分辨率生成25帧动画。
Stable Zero 123:2023年12月发布,主要功能是通过单张图像生成3D物体,并提供包括物体背面在内的多个视图。
Stable Diffusion Cascade:2024年2月推出,采用三阶段生成流程(ABC阶段),以更高的效率生成高质量图像,超越了SDXL,具有更好的性能和多功能性,无需大量微调即可产生各种风格。
除了以上介绍的基础模型,很多大牛们在以上基础模型的基础上又训练出了各种风格的模型,比如用于卡通、写实、虚幻、建筑等各种类型。
二、本地化部署版本选择
在本地化部署Stable Diffusion时,版本的选择应基于以下因素:
硬件要求:确保计算机满足所选版本的硬件要求,包括内存、硬盘空间和显卡等。例如,一些版本可能对显卡的要求较高,需要购买性能较好的显卡以加速图像生成过程。
功能需求:根据具体的应用场景和功能需求选择合适的版本。例如,如果需要生成高分辨率的图像,可以选择支持更高分辨率的版本;如果需要快速生成图像,可以选择生成步骤较少的版本。
稳定性和兼容性:选择经过广泛测试和验证的版本,以确保稳定性和兼容性。一些新版本可能存在未知的问题或兼容性问题,因此在选择时需要谨慎考虑。
综合考虑以上因素,对于大多数用户来说,Stable Diffusion 1.5可能是一个较为合适的选择。它是最广泛使用的微调版本,具有稳定的性能和良好的兼容性,能够满足大多数用户的需求。同时,它也不需要过高的硬件要求,适合在本地进行部署和使用。
根据功能需求或硬件条件,可以参考以下建议进行本地化部署。
如果你的硬件配置较低(例如显存小于 8GB),并且希望快速上手: 推荐选择 Stable Diffusion v1.x,v1.x 对硬件要求较低,并且有大量的教程和资源。
如果你的硬件配置中等(例如显存 8GB-16GB),并且追求较好的图像质量: 可以尝试 Stable Diffusion v2.x 或 Stable Diffusion XL。
如果你的硬件配置较高(例如显存 16GB 以上),并且希望体验最新的技术: 毫无疑问,选择 Stable Diffusion XL。
硬盘足够大的话,把常用的模型文件全部下载下来,放到指定的目录中,绘画时根据需要随时选择,后面的系列文章我会详解使用方法。
三、操作界面的选择
原生版的Stable Diffusion操作,都是命令行或者Python源码,需要操作的人有一定的技术功底,而且对命令行和Pthon非常熟练。如果要提高操作效率,可以选择两个WEBUI版本。
1.Stable Diffusion WebUI (Automatic1111)
大名鼎鼎,全球大部分使用Stable Diffusion的人都在用它,如何本地化部署,在下一篇文章中给出详细操作步骤,纯英文界面。
2.绘世
国内的秋叶在Stable Diffusion WebUI (Automatic1111)基础上,把首页界面给汉化了一下,并把常用的插件打包在里面,同时配备一个启动器,会自动安装Stable Diffusion WebUI (Automatic1111)所需的Phthon、pip、PyTorch等环境和工具,大大降低了本地化部署的入门门槛,国内的好多Stable Diffusion教程和书籍基本都是基于这个平台来写的。
我选择的是Stable Diffusion WebUI (Automatic1111),因为作为一个技术爱好者,不仅仅是学会如何去用它,还要研究它的实现过程,分析并学习别人的优秀源码,这样你就能更好的提升自己的能力;同时用纯英文的版本还能练习英文。