【图片】第七期，浅谈 stable diffusion 与其它微调模型的关系【novelai吧】

如题，这期的内容主要围绕 model（模型）来展开讲讲
不会非常深入，新手可看，老少皆宜
近期，花了很多心思在运营公众号上，突然发现，自己好像很少这么用心去经营一件事情，还是蛮开心的
目光所及，皆是星辰，给自己打打气

gzh名称与贴吧同名，AI绘语，还没关注的话赶紧关注哦，内容包括教程、美图分享以及最新的一些AI资讯
因为只有我自己在弄，因此没办法每天更新，更新频率大概2-3天一更吧
期待你的关注，一起探索AI世界

（教程配图之一）

送TA礼物

IP属地:广东

1楼2023-06-19 10:53回复

更多教程，请看往期内容
我会持续更新更好的教程，欢迎关注哦

IP属地:广东

2楼2023-06-19 10:55

一、引入
可能有很多刚刚接触AI绘画的小伙伴会对 "Stable Diffusion" 感到一些困惑，它究竟是什么？是一款软件吗？这里我来统一解答一下。实际上，Stable Diffusion是一种名为 "latent diffusion model"（潜在扩散模型）的AI模型，也就是说，它是一个机器学习模型，而不是一款我们通常理解的可以直接运行的软件。
要运行 Stable Diffusion 模型，你需要一个适合的平台或者环境。现在最主流的方式是使用一个名为 Stable Diffusion Webui 的平台，这是一位在 GitHub 上的开发者 Automatic1111 编写的项目，能够有效地运行和使用 Stable Diffusion 模型，同时它的兼容性也非常好，因此被广泛应用。
至于你经常听到的 Waifu Diffusion、Anything V3以及 ChilloutMix 等模型，他们其实都是基于 Stable Diffusion 模型进行微调（Fine-tuning）得到的衍生模型。这些微调模型继承了 Stable Diffusion 的基础特性，同时针对特定的任务或数据进行了优化，从而具有更强的特定领域性能。
在AI绘图领域，尤其是在有关 stable diffusion 的讨论中，你会频繁遇到 “Model（模型）”这个词。在这里，Model，也被称为 “checkpoint file（检查点文件）” ，指的是经过预训练的 stable diffusion 模型，它可以被应用于广泛的目的或用于生成特定领域的图片。
模型能够生成的图片类型主要取决于训练该模型时所使用的数据。以 cat（猫）的图片为例，如果你的训练数据集中没有包含猫的数据，那么这个模型就无法生成猫的图片。相反，如果你的训练数据集仅包含猫的图片，那么该模型就只能生成猫的图片。因此，可以说一个模型的能力，或者说其生成图片的类型和质量，在很大程度上都取决于用于训练该模型的数据。
在接下来的部分，我将对SD模型进行更深入的介绍，包括一些常见的模型类型以及如何安装和使用这些模型。
无论你是对AI绘图技术有深厚的兴趣，还是想在实践中掌握更多的应用技巧，这里都有你需要的内容。

IP属地:广东

3楼2023-06-19 11:18

二、微调模型
1、什么是fine-tuning（微调）？
在机器学习领域，Fine-tuning（微调）是一种普遍的策略。这个策略的主要目的是为了使模型适应新的特定任务，或者在某个专门领域中提升模型的表现。以 waifu diffusion 模型为例，该模型就是为了更好地生成二次元风格的图片，在一些二次元图片数据集上专门进行了进一步的训练和优化，使得其在生成二次元领域的图片时，能够输出更优质的结果。
通过 fine-tuning（微调）得到的模型，我们称之为 fine-tuned model（微调模型）。
在AI绘图领域，预训练模型通常是指基于大规模数据集进行预训练的模型，如 stable diffusion（SD）模型。SD模型在大量丰富多样的数据上进行了训练，从而学习到了识别和生成各种对象的基础特征。训练SD模型到底使用了多么庞大数据，你可以在我第五期的内容中找到答案。
练微调后的模型，一方面保留了原始模型的通用性，另一方面在特定任务上表现出更优的性能。这是因为在微调过程中，模型在特定任务或数据上得到了更深入的训，从而对这类任务具有更高的精准度和表现力。然而，微调并不总是带来积极的结果，有些微调可能因为参数设置过于激进，导致模型过度拟合训练数据，反而失去了预训练模型的泛化能力和灵活性。因此，在使用微调模型时，我们需要警惕这种过度拟合的风险。

IP属地:广东

4楼2023-06-19 11:55

2、为什么需要微调模型？
如果你使用过SD模型，那么你就会发现这个模型几乎能生成所有东西，只是都不太精。比如，你让SD模型生成动漫风格的图片，当你使用 “anime” 这个tag，它能够生成动漫风格图片，但如果你想要更加二次元的图片，可能需要繁琐的提示词操作，而且效果可能还不理想。而这就是微调模型能解决的问题。
你可以从下图中对比一下不同模型生成效果的差异：
Prompt: 1 girl, anime, crystal eyes, smooth skin, long hair, upper body, highly detailed, sharp focus, cinematic lighting, colorful, vibrant color（1个女孩，动漫，水晶般的眼睛，光滑的皮肤，长头发，上半身，高度细节，锐焦，电影灯光，多彩，鲜艳颜色）

Stable diffusion V1.5的结果很有意思，在提示词中，我只对眼睛、皮肤和头发进行了强调，与之相对应，生成的图片中恰恰只有这三者被刻画的最好，因此如果想要使用SD生成符合预期的图片，还需要更细致的刻画才行。而 RevAnimated V1.2 和 Deliberate V2 都没有这个问题，简单的提示词就可以生成五官正常的人物。这是由于训练数据包含更多人物图片的原因。
总体来看，微调模型 RevAnimated V1.2 和 Deliberate V2 的人物绘画上都比 Stable diffusion V1.5 强上不少，因此微调模型是非常必要的。

IP属地:广东

7楼2023-06-19 14:18

3、微调模型的训练方法
有两种主要的微调方法，一种是 Additional training（额外的训练），另一种是 Dreambooth。两种方法的 base model（底模）都是 stable diffusion V1.4或V1.5。V2出来以后，也有一些模型的训练底模是V2了，但目前还没有完全普及。
Additional training: 使用额外的数据集对底模进行训练，比如，如果我使用许多非常炫酷的跑车图片进行训练，那么模型也能够很容易生成非常美观的跑车图片。Waifu diffusion 和 Dreamshaper 等模型都是使用此种方法。
Dreambooth：最初由Google开发，是一种特殊的技术，可以将自定义主题融入到文生图AI模型中。这种技术特别灵活，只需使用3-5张定制的图像即可生效。例如，你可以拍摄几张自己的照片，然后利用Dreambooth将你的形象引入模型，从而让模型能生成包含你自己的图像。使用经过Dreambooth训练的模型，需要一个特定的关键词（比如你的名字）来触发模型，以便更精确地生成你想要的图片内容。这个关键词要足够特殊，使之不与模型的其它 tag 重叠。
当然还有一些其它的微调方法，包括textual inversion（嵌入）、Hypernetwork（超网络）、LoRA、lyCORIS等等。
下面做一简单介绍。
Textual inversion: 也叫embedding（嵌入），这种文件很小，通常只有10-100KB。通过在 prompt 或 negative prompt 中插入embedding 可以改变图像的风格。
Hypernetwork: 超网络。一种从外部调整模型权重的文件，通常只有5-300M。在AI绘画中，超网络可以帮助模型更好地生成具有特定属性（例如风格，纹理等）的图像，提升生成图像的质量和多样性。
LoRA: 这是更为常见模型类型。通常不会超过300MB，占用空较小。不能单独使用，只能搭配相应的 checkpoint 使用。通过插入LoRA，可以显著改变图像的质量，并且能够向模型引入全新的物品或风格。
LyCORIS: 一种 LoRA 变体，具有比 LoRA 更大范围且更精准调整模型权重的能力。对于手、脚和脸等容易扭曲的地方，LyCORIS 将大有作为，是解决AI无法很好绘制手的问题的解决方法之一。预计之后应该会有更多基于 LyCORIS 的模型诞生。

IP属地:广东

11楼2023-06-19 15:27

4、分享一些自用的模型
以下是我自己收集整理的自用模型，包括 Checkpoint、Lora、embedding等，会保持更新。
链接：https://kdocs.cn/l/cpw8cylzqPiC

IP属地:广东

12楼2023-06-19 16:24

三、常见模型
1、stable diffusion V1.5

模型简介：https://huggingface.co/runwayml/stable-diffusion-v1-5
下载链接：https://huggingface.co/runwayml/stable-diffusion-v1-5/resolve/main/v1-5-pruned.safetensors
Stable Diffusion V1.5 是由Runway ML于2022年10月份发布的AI绘图模型。 Runway ML是Stability AI的合作伙伴。
V1.5是在V1.2的基础上进行了微调和优化，成为许多其他模型的基础，并且具有广泛的通用性。
然而，操作这个模型对于许多新手来说可能存在一定困难。这是因为它依赖于用户的提示词撰写能力，来生成符合用户期望的图片。换句话说，你需要有一定的创造力和语言能力，才能让模型按照你的设想来绘制图像。因此，如果你是初次尝试V1.5模型，可能需要花费一些时间和精力来熟悉和掌握这个过程。

IP属地:广东

13楼2023-06-19 16:38

2、ChilloutMix

模型简介：在C站，链接放不上
下载链接：https://huggingface.co/swl-models/chilloutmix/resolve/main/Chilloutmix-non-ema-fp16.safetensors
C站下载量最高的模型。
Chilloutmix 是一个很不错的AI绘图模型，特别适合生成逼真的图片，尤其是人像。它的生成效果十分接近真实的照片。然而，你需要知道，这款模型被标记为18+。这意味着，它有可能生成一些包含成人内容的图像。
如果你不希望出现这类图片，可以在 negative prompt（反向提示词）中输入一些关键词，如 "nsfw, nude, naked"，以避免生成可能含有裸露内容的图片。在正向提示词加入该关键词则起相反的作用。

IP属地:广东

14楼2023-06-19 16:52

3、DreamlikeDiffusion V1.0

模型简介：https://huggingface.co/dreamlike-art/dreamlike-diffusion-1.0
下载链接：https://huggingface.co/dreamlike-art/dreamlike-diffusion-1.0/resolve/main/dreamlike-diffusion-1.0.safetensors
这是我最喜欢的模型之一，能够生成色彩非常艳丽且美观度极佳的图片。强烈推荐！

IP属地:广东

15楼2023-06-19 16:57

4、Deliberate v2

模型简介：https://huggingface.co/XpucT/Deliberate
下载链接：https://huggingface.co/XpucT/Deliberate/resolve/main/Deliberate_v2.safetensors
这是一个通用目的的AI绘图模型，生成的图片质量都很不错，同时也能够生成类型多样的图片。也是我最喜欢得到模型之一。

IP属地:广东

16楼2023-06-19 16:57

5、realistic-vision V2.0

模型简介：https://huggingface.co/SG161222/Realistic_Vision_V2.0
下载链接：https://huggingface.co/SG161222/Realistic_Vision_V2.0/resolve/main/Realistic_Vision_V2.0-fp16-no-ema.safetensors
realistic-vision V2.0 与 ChilloutMix 类似，也能够生成逼真度很高的图片。区别是realistic-vision V2.0 能生成的图片类型更多，而 ChilloutMix 则主要集中在女性。

IP属地:广东

17楼2023-06-19 16:58

6、Anything V5 Prt-RE

模型简介：在c站，没办法放链接
下载链接：同上
二次元专属模型，可以用来生成高质量的二次元图片。类似的模型还有 waifu diffusion，请自行搜索。
附上这张图的提示词和设置
正向提示词：iku nakatani (million live), (best quality, 8K, masterpiece, ultra detailed:1.2), dynamic pose, cinematic angle, cowboy shot, light particles, sparkle, beautiful detailed eyes, shiny skin, shiny hair, day, dappled sunlight, blue sky, beautiful clouds, beach, wide shot, depth of field, blurry, sailing boats, ocean, seagull, islands in distance, 1girl, solo, skirt, smile, cute, happy, open mouth, sailor collar, shirt, pleated skirt, short sleeves, :d, school uniform, serafuku, collarbone, ribbon, bow,
反向提示词：EasyNegative, (worst quality, low quality:1.4), (lip, nose, tooth, rouge, lipstick, eyeshadow:1.4), (jpeg artifacts:1.4), (bokeh, blurry, film grain, chromatic aberration, lens flare:1.0), (1boy, abs, muscular, rib:1.0), greyscale, monochrome, dusty sunbeams, trembling, motion lines, motion blur, emphasis lines, text, title, logo, signature, simple background, white background,
其它参数：Steps: 15, Sampler: DPM++ 2M Karras, CFG scale: 5, Seed: 1546739099, Size: 768x512, Model hash: 7f96a1a9ca, Model: AnythingV5Ink_v5PrtRE, Clip skip: 2
更多类似的图片