DALLE2-文本图像生成

创始人

2024-05-05 10:25:47

文章目录

摘要
算法
- 解码器
- prior
图像处理
- 变体
- 插值
- 文本差异
限制

论文：《Hierarchical Text-Conditional Image Generation with CLIP Latents》
github： https://github.com/lucidrains/DALLE2-pytorch
https://github.com/LAION-AI/dalle2-laion

摘要

CLIP已经被证明可以学习语义或风格表征，作者提出二阶段模型，给出文本描述，利用先验模型生成CLIP图像嵌入，解码器利用图像嵌入生成图像；解码器作者使用扩散模型；prior作者使用自回归及扩散模型，发现后者计算高效，生成样本质量高。

算法

(x,y)(x,y)(x,y)表示图像及对应caption，zi、ztz_i、z_tzi、zt为CLIP提取图像特征及文本特征；
DALLE2生成过程使用两个组件：
1、prior P(zi∣y）P(z_i|y）P(zi∣y）基于caption yyy生成图像编码ziz_izi；
2、decoder P(x∣zi,y)P(x|z_i, y)P(x∣zi,y)基于CLIP提取图像编码ziz_izi生成图像x，可选择使用caption y;
在这里插入图片描述
DALLE2文本图像生成过程如图2：
1、CLIP将文本进行编码，通过自回归或扩散模型（prior）生成图像编码先验，
2、图像编码通过扩散模型解码器（decoder）生成最终图像

解码器

作者使用扩散模型基于CLIP所生成的图像embedding生成图像，具体使用改进GLIDE，将CLIP embedding添加进timestep embedding中，映射CLIP embedding为4个额外token，与GLIDE文本编码器输出进行concat；

prior

解码器可将CLIP图像embedding ziz_izi生成图像x，先验器将caption y生成图像embedding ziz_izi；有两种方案：
1、AR（自回归先验）：使用CLIP将图像embedding ziz_izi转换为离散序列，基于caption y进行自回归预测；
2、扩散先验；基于caption y使用高斯扩散模型对连续向量ziz_izi进行直接建模；
DALLE2中扩散先验，作者训练仅包含解码器的Transformer，其使用包括因果关系的mask在序列上进行：文本编码、CLIP文本embedding、扩散模型timestep embedding、噪声CLIP image embedding、最终Transformer输出embedding.

图像处理

变体

对于表征$(z_i，x_T)通过超参控制采样，η=0，则为重构原图，η越大引入更大随机性，如图3；
在这里插入图片描述

插值

如图4，对于两张图片x1，x2，通过CLIP进行编码zi1，zi2z_{i1}，z_{i2}zi1，zi2，两者进行插值；
在这里插入图片描述

文本差异

对于两文本输入通过CLIP进行编码zt，zt0z_t，z_{t0}zt，zt0，计算向量差异zd，对zi、zdz_i、z_dzi、zd进行插值得到CLIP表征；
在这里插入图片描述

限制

1、DALLE2相对于GLIDE容易忽视两目标各自属性；
在这里插入图片描述
2、解码器容易混合目标属性

3、难以生成连续文本

词库加载错误:未能找到文件“E:\highferrum_mysql\Configuration\Dict_Stopwords.txt”。

上一篇：HTML+CSS制作简单的家乡网页 ——我的家乡介绍广东 web前端期末大作业

下一篇：学习HTTP协议，这一篇就够啦

相关内容

热门资讯

我喜欢你韩语怎么说 sikid...

埃菲尔铁塔在哪中国仿建埃菲尔... 2019年4月26日，广西南宁市，街头惊现一座巨型山寨版埃菲尔铁塔，高约20米，白色塔身，造型逼真，...

苗族的传统节日贵州苗族节日有... 【岜沙苗族芦笙节】岜沙，苗语叫“分送”，距从江县城7.5公里，是世界上最崇拜树木并以树为神的枪手部落...

北京的名胜古迹北京最著名的景... 北京从元代开始，逐渐走上帝国首都的道路，先是成为大辽朝五大首都之一的南京城，随着金灭辽，金代从海陵王...

长白山自助游攻略吉林长白山游... 昨天介绍了西坡的景点详细请看链接：一个人的旅行，据说能看到长白山天池全凭运气，您的运气如何？今日介绍...

应用未安装解决办法平板应用未... ---IT小技术，每天Get一个小技能！一、前言描述苹果IPad2居然不能安装怎么办？与此IPad不...

脚上的穴位图脚面经络图对应的... 人体穴位作用图解大全更清晰直观的标注了各个人体穴位的作用，包括头部穴位图、胸部穴位图、背部穴位图、胳...

猫咪吃了塑料袋怎么办猫咪误食... 你知道吗？塑料袋放久了会长猫哦！要说猫咪对塑料袋的喜爱程度完完全全可以媲美纸箱家里只要一有塑料袋的响...

demo什么意思 demo版本... 618快到了，各位的小金库大概也在准备开闸放水了吧。没有小金库的，也该向老婆撒娇卖萌服个软了，一切只...

世界上最漂亮的人世界上最漂亮... 此前在某网上，选出了全球265万颜值姣好的女性。从这些数量庞大的女性群体中，人们投票选出了心目中最美...

我喜欢你韩语怎么说 sikid...

埃菲尔铁塔在哪中国仿建埃菲尔... 2019年4月26日，广西南宁市，街头惊现一座巨型山寨版埃菲尔铁塔，高约20米，白色塔身，造型逼真，...

苗族的传统节日贵州苗族节日有... 【岜沙苗族芦笙节】岜沙，苗语叫“分送”，距从江县城7.5公里，是世界上最崇拜树木并以树为神的枪手部落...

北京的名胜古迹北京最著名的景... 北京从元代开始，逐渐走上帝国首都的道路，先是成为大辽朝五大首都之一的南京城，随着金灭辽，金代从海陵王...

长白山自助游攻略吉林长白山游... 昨天介绍了西坡的景点详细请看链接：一个人的旅行，据说能看到长白山天池全凭运气，您的运气如何？今日介绍...

世界上最漂亮的人世界上最漂亮... 此前在某网上，选出了全球265万颜值姣好的女性。从这些数量庞大的女性群体中，人们投票选出了心目中最美...

应用未安装解决办法平板应用未... ---IT小技术，每天Get一个小技能！一、前言描述苹果IPad2居然不能安装怎么办？与此IPad不...

脚上的穴位图脚面经络图对应的... 人体穴位作用图解大全更清晰直观的标注了各个人体穴位的作用，包括头部穴位图、胸部穴位图、背部穴位图、胳...

demo什么意思 demo版本... 618快到了，各位的小金库大概也在准备开闸放水了吧。没有小金库的，也该向老婆撒娇卖萌服个软了，一切只...

猫咪吃了塑料袋怎么办猫咪误食... 你知道吗？塑料袋放久了会长猫哦！要说猫咪对塑料袋的喜爱程度完完全全可以媲美纸箱家里只要一有塑料袋的响...