如何简单高效地定制自己的文本作画模型？

强烈建议先阅读：一文弄懂 Diffusion Model

1. 论文信息

标题：Multi-Concept Customization of Text-to-Image Diffusion

作者：Nupur Kumari, Bingliang Zhang, Richard Zhang, Eli Shechtman, Jun-Yan Zhu.

【资料图】

原文链接：https://arxiv.org/pdf/2212.04488.pdf

代码链接：https://www.cs.cmu.edu/~custom-diffusion/

2. 引言

最近通过文本生成图像的深度学习相关技术取得了非常大的进展，2021已经成为了图像生成的一个新的milestone，诸如DALL-E和Stable diffusion这种模型都取得了长足的进步，甚至达到了“出圈”的效果。通过简单文本prompts，用户能够生成前所未有的质量的图像。这样的模型可以生成各种各样的对象、风格和场景，并把它们进行组合排序，这让现有的图像生成模型看上去是无所不能的。

但是，尽管这些模型具有多样性和一些泛化能力，用户经常希望从他们自己的生活中合成特定的概念。例如，亲人、朋友、宠物或个人物品和地点，这些都是非常有意义的concept，也和个人对于生成图像的信息有对齐。由于这些概念天生就是个人的，因此在大规模的模型训练过程中很难出现。事后通过详细的文字，来描述这种概念是非常不方便的，也无法保留足够多的视觉细节来生成新的personal的concepts。这就需要模型具有一定的“定制”能力。也就是说如果给定少量用户提供的图像，我们能否用新概念（例如宠物狗或者“月亮门”，如图所示）增强现有的文本到图像扩散模型？经过微调的模型应该能够将它们与现有概念进行概括并生成新的变化。这带来了几个比较严峻的挑战：

首先，模型倾向于遗忘现有概念的含义：例如，在添加“moon gate”这一concept的时候，“moon”的含义就会丢失。其次，由于stable diffusion这样的网络往往参数会超级多，所以在小数据上训练模型，容易造成对训练样本进行过拟合，而且采样中变化也有限。此外，论文还关注了一个更具挑战性的问题，即组group fine-tuning，即能够超越单个个体concept的微调，并将多个概念组合在一起。学习多个新的concepts同时也是存在一定的挑战的，比如 concept mixing以及concept omission。

在这项工作中，论文提出了一种fine-tuning技术，即文本到图像扩散模型的“定制扩散”。我们的方法在计算和内存方面都很有效。为了克服上述挑战，新方法固定一小部分模型权重，即文本到潜在特征的key值映射在cross-attention layer中。fine-tuning这些足以更新模型的新concepts。为了防止模型丧失原来强大的表征能力，新方法仅仅使用一小组的图像与目标图像类似的真实图像进行训练。我们还在微调期间引入data的augamation，这可以让模型更快的收敛，并获得更好的结果。论文提出的方法实验是构建在Stable Diffusion之上，并对各种数据集进行了实验，其中最少有四幅训练图像。对于添加单个concept，新提出的方法显示出比相似任务的作品和基线更好的文本对齐和视觉相似性。更重要的是，我们的方法可以有效地组成多个新concepts，而直接对不同的concepts进行组合的方法则遇到困难，经常会省略一个。最后，我们的方法只需要存储一小部分参数（模型权重的3％），消耗的GPU memory非常有限，同时也减少了fine-tuning的时间。

3. 方法

总结来讲，论文提出的方法，就是仅更新权重的一小部分，即模型的交叉注意力层。此外，由于目标概念的训练样本很少，所以使用一个真实图像的正则化集，以防止过拟合。

对于Single-Concept Fine-tuning，给定一个预训练的text-to-image diffusion model，我们的目标是在模型中加入一个新的concept，只要给定四张图像和相应的文本描述进行训练。fine-tuning后的模型应保留其先验知识，允许根据文本提示使用新概念生成新的图像类型。这可能具有挑战性，因为更新的文本到图像的映射可能很容易过拟合少数可用图像。所以保证泛化性就非常有必要，也比较有挑战。所以就仅仅fine-tuning新的K和V，而对于query，则保持不变，这样就可以增加新概念的同时，保证模型的表征能力不受到太多的影响。优化目标还是diffusion的形式：

概括起来实际上非常简单，就是训练一个k和v的矩阵，来扩充维度，增加模型的表征能力，使其能生成更为丰富的图像内容。

而对于Multiple-Concept Compositional Fine-tuning，为了对多个概念进行微调，我们将每个概念的训练数据集合并，并使用我们的方法将它们联合训练。为了表示目标概念，我们使用不同的修饰符的，并将它们与每个层的交叉注意关键和值矩阵一起初始化，并优化它们。通过将权重更新限制为交叉注意key和value参数，与DreamBooth等方法相比，可以显着更好地将两个概念合并在一起。

由于我们的方法仅更新与文本特征相对应的key和value投影矩阵，因此我们可以将它们合并，以允许使用多个微调概念生成。让集合表示预训练模型中所有交叉注意层的key和value矩阵，并且表示添加概念的相应更新矩阵。由于方法随后的优化适用于所有层和key矩阵，为了简洁起见忽略key和value的上标以及层。我们将合成目标表述为以下约束最小二乘问题：

这里，是维度为的文本特征。这些是个跨越所有个concept的目标词.

可以发现，增加约束还是让模型具有更强的表征能力的。最下面一行才和真正的门比较相似，同时生成的月亮也非常合理。

4. 实验

给定一个新concepts的图像如左侧显示的目标图像，提出的方法可以在看不见的上下文和艺术风格中生成带有该概念的图像。第一行：代表水彩画艺术风格中的概念。方法还可以在背景中生成山脉，而 DreamBooth 和 Textual Inversion 忽略了这一点。第二行：改变背景场景。我们的方法和 DreamBooth 的表现与 Textual Inversion 相似且更好。第三行：添加另一个对象，例如带有目标桌子的橙色沙发。新的方法成功地添加了另一个对象。第四行：改变对象属性，如花瓣的颜色。第五行：用太阳镜装饰私人宠物猫。我们的方法比基线更好地保留了视觉相似性，同时仅更改花瓣颜色或为猫添加太阳镜。

可以发现Multiple-Concept Compositional Fine-tuning的效果也非常惊艳。

风格迁移的效果也不错。

定量指标也有比较有竞争力的表现：

5. 结论

论文提出了一种基于new concepts的text-to-image生成模型的fine-tuning方法。只需使用一些有限的图像示例，新方法就能一高效的方法生成微调概念的新样本同时保留原有的生成能力。而且，我们只需要保存一小部分模型权重。此外，方法可以连贯地在同一场景中组合多个新概念，这是之前的方法所缺少的能力。

如何简单高效地定制自己的文本作画模型？

世界看热讯：绳蚊有电蚊香吗?

黑色衣服用力蓝月亮84消毒液后变红了怎么办?

每日消息!有期徒刑是多久时间

比亚迪股份(01211)：中国证监会决定终止对比亚迪半导体发行注册程序

三丰智能(300276)：持股5%以上股东及其一致行动人减持股份比例达到1%

市场回暖 订单恢复 企业增资扩产满足市场需求 每日快报

2023江苏卫视跨年演唱会门票获取攻略

12月29日基金净值：泰康沪深300ETF最新净值4.1021，跌0.38% 天天热闻

贵州茅台2022年预计实现营业总收入约1272 亿元

定了！12月30日北京至唐山城际铁路将开通运营|环球观速讯

无相关手续建公墓？进贤县老王村林下建墓叫停一年后重启

中央气象台：未来三天西南地区等地仍有雨雪天气-环球动态

海星通任命岑煌莹为公司董事会秘书2022上半年公司净利223.87万_当前资讯

超越ConvNeXt！Transformer 风格的卷积网络视觉基线模型Conv2Former

2022年美股科技股哀鸿遍野，IBM笑傲群雄 全球热推荐

青岛食品（001219）12月28日主力资金净卖出1565.04万元

环球动态:万科企业完成发行37亿元中期票据 利率为3%

当前热讯：斩获全国大赛一等奖！超越科技用好“创新利器”实现“上天入海”

精彩看点：北京：组织对老年人等高风险人群发放血氧夹

好消息！即日起驻马店市体育中心向市民免费开放

江河集团董秘回复：公司传统幕墙业务占公司总营业收入的6-7成，截止9月30日光伏幕墙实现收入约1.5亿 世界新要闻

腾讯“全场的希望”视频号 何时担起赚钱重任？|全球快资讯

全球观焦点：中上协发布《上市公司ESG行业报告》（2022年）

全球观点：国盾量子：公司已在定期报告中披露股东人数,按照相关规定不披露实时的股东人数,请您理解

提醒｜监管部门发布风险提示：警惕不法贷款机构“转贷降息”陷阱-头条焦点

马化腾们“开炮”降本增效，大厂招聘意外回暖，应届生苦等数月终上岸_环球新要闻

鹤盛镇开展消防夜巡行动

今日快看!ST东洋子公司抗原检测产品取证 药监局已批准46个新冠抗原检测试剂

微导纳米上市首日涨13.4% 募11亿扣非连降现金流屡负

世界快讯:最大CLIP！LAION发布CLIP的扩增定律

外媒：日本央行“变相加息”震动市场

南京医药持续推进区域化布局 扩大渠道布局零售门店增至近600家

逾九成百强外商投资大湾区

嘉欣丝绸董秘回复：蚕丝原料本身具备一定的抗菌性，公司凭借多年来在丝绸面料研发上的积累

首批“黑龙江特色气候小镇”出炉|世界今热点

粤 水 电（002060）：广东省茂名市共青河（马鹿至澳内段）兴水惠农工程施工中标 今日视点

金圆股份：公司收购阿里锂源49%股权项目正在积极推进中_天天微资讯

2022钢琴音乐周来了 展示充满现代风格的音乐之旅

神舟十四号航天员乘组首月在轨工作顺利 进驻天和核心舱

宝应农发行获批江苏省分行水利建设贷款项目2.2亿元

工信部：支持制造业优质企业成长壮大 加快推进电子证照

中国电信2021年实现净利润259.5亿元

荣耀赵明：未来几年都不会进入汽车领域

IDC：2021年中国IT安全硬件市场规模达到37.7亿美元

字节跳动全资入股长顺新声科技 涉及企业管理咨询

阅读过大年 商务印书馆发布1月十大好书

如何推动普通高中高质量发展？教育部详解

教育部印发《普通高中学校办学质量评价指南》 含18项关键指标

交通银行试点长三角区域抵押登记“跨省通办”

2022年“文化进万家——视频直播家乡年”活动正式启动

国家发改委：春节和北京冬奥会期间重要民生商品价格将保持平稳运行

国家发改委：西安重点生活物资配送“最后一米”问题正加快解决

人民热评：刘鑫被依法惩处，正义没有缺席！

专访：RCEP将有力促进区域经济疫后复苏——访泰国商业部贸易谈判司司长奥拉蒙

综述：英国累计新冠死亡病例超15万例 未来面临“艰难几周”

如何实现工业废水高效循环利用？专家：聚焦重点分类施策

杨国豪当选福建省厦门市人大常委会主任 黄文辉当选福建省厦门市市长

交通运输部：支持浙江建设共同富裕示范区 探索加快建设交通强国省域范例

2021年我国民航完成固定资产投资1150亿元 超额完成年度投资目标

比利时多位人士表达对北京冬奥会的支持

2021年我国民航行业出台一揽子促发展措施 全年降成本近100亿元

于学利当选辽宁省沈阳市政协主席

2021年我国民航运输航空实现持续安全飞行9876万小时

推动创新创业向纵深发展 国家发改委打算这样干

西安群众如何就医？记者带你去看看

民航局对国航、厦航、南航等八个入境航班发出熔断指令

天津：划定封控区 全市开展全员核酸检测

积极落实防控措施 多地全力抗击疫情

工信部：鼓励新能源与智能网联汽车等领域建设产品质量大数据公共服务平台

工信部：针对年轻及国外消费群体发展低度化白酒产品

民航局：2022年力争完成旅客运输量5.7亿人次 实现行业整体扭亏增盈

北航举行2021-2022学年研究生毕业典礼暨学位授予仪式

斯里兰卡总统戈塔巴雅会见王毅

文旅部公示首批国家级旅游休闲街区名单

2022年国家公务员考试 明起可申请调剂

2021年“扫黄打非”十大数据公布

2021年“扫黄打非”十大案件公布

2021年“扫黄打非”工作综述：举旗亮剑 激浊扬清

交通运输部：将引导19.61亿元社会资金投入交通运输科技研发

市场回暖订单恢复企业增资扩产满足市场需求每日快报

2022年美股科技股哀鸿遍野，IBM笑傲群雄全球热推荐

环球动态:万科企业完成发行37亿元中期票据利率为3%

江河集团董秘回复：公司传统幕墙业务占公司总营业收入的6-7成，截止9月30日光伏幕墙实现收入约1.5亿世界新要闻

腾讯“全场的希望”视频号何时担起赚钱重任？|全球快资讯

今日快看!ST东洋子公司抗原检测产品取证药监局已批准46个新冠抗原检测试剂

南京医药持续推进区域化布局扩大渠道布局零售门店增至近600家

粤水电（002060）：广东省茂名市共青河（马鹿至澳内段）兴水惠农工程施工中标今日视点

2022钢琴音乐周来了展示充满现代风格的音乐之旅

神舟十四号航天员乘组首月在轨工作顺利进驻天和核心舱

工信部：支持制造业优质企业成长壮大加快推进电子证照

字节跳动全资入股长顺新声科技涉及企业管理咨询

阅读过大年商务印书馆发布1月十大好书

教育部印发《普通高中学校办学质量评价指南》含18项关键指标

综述：英国累计新冠死亡病例超15万例未来面临“艰难几周”

杨国豪当选福建省厦门市人大常委会主任黄文辉当选福建省厦门市市长

交通运输部：支持浙江建设共同富裕示范区探索加快建设交通强国省域范例

2021年我国民航完成固定资产投资1150亿元超额完成年度投资目标

2021年我国民航行业出台一揽子促发展措施全年降成本近100亿元

推动创新创业向纵深发展国家发改委打算这样干

天津：划定封控区全市开展全员核酸检测

积极落实防控措施多地全力抗击疫情

民航局：2022年力争完成旅客运输量5.7亿人次实现行业整体扭亏增盈

2022年国家公务员考试明起可申请调剂

2021年“扫黄打非”工作综述：举旗亮剑激浊扬清

增强供应链合作电子烟产业布局海外

数字政通：步入无人驾驶新赛道与主线科技签署战略合作协议

珠海高新区新政揽才最高600万元住房补

俄美双边对话欧盟处境尴尬

国资委：决战决胜国企改革三年行动更好发挥国有经济战略支撑作用

第二轮第五批中央生态环境保护督察全面完成督察进驻工作已受理有效举报9656件

荣盛发展：2021年签约金额1345.58亿元同比增长5.87%