(19)国家知识产权局
(12)发明 专利申请
(10)申请公布号
(43)申请公布日
(21)申请 号 202211399263.5
(22)申请日 2022.11.09
(71)申请人 中国矿业大 学 (北京)
地址 100083 北京市海淀区学院路丁1 1号
(72)发明人 高文超 周思杰 张杰 陈诗雨
任圣博
(74)专利代理 机构 成都方圆聿联专利代理事务
所(普通合伙) 51241
专利代理师 苟铭
(51)Int.Cl.
G06V 30/19(2022.01)
G06V 10/82(2022.01)
G06V 10/80(2022.01)
G06N 3/04(2006.01)
G06N 3/08(2006.01)
(54)发明名称
基于调制融合和生成对抗网络的文本生成
图像方法
(57)摘要
本发明公开了一种基于调制融合和对比学
习生成对抗网络的文本生 成图像方法, 包括以下
步骤: 建立调制融合模块, 设计成了残差结构, 包
含主路的两个文本特征变换层、 两个卷积层和支
路的一个卷积层; 建立生成器, 由一个映射网络、
八个调制融合模块, 六个上采样模块和一个卷积
层组成。 建立判断器网络结构判别器由一个特征
提取器和三个分支组成的, 三个分支包括: 语义
重构分支、 无条件损失分支和条件损失分支。 建
立对比学习网络进行对比损失; 优化损失函数,
损失函数包括生成对抗损失、 语义重构损失。 本
发明可以生成更加符合文本语义的图像, 对于图
像的真实度和语义一致性都有提升, 对于图像的
生成质量有了进一 步提升。
权利要求书3页 说明书17页 附图5页
CN 115527216 A
2022.12.27
CN 115527216 A
1.一种基于调制融合和对比学习生成对抗网络的文本生成图像方法, 其特征在于, 包
括以下步骤:
一、 建立调制融合模块;
创建文本特征变换层(Text Feature Transform Layer, TFT ‑Layer), 文本特征变换层
包含两个并行 的全连接神经网络生成调制参数, 并且为了增强条件向量的表达能力, 全连
接层之间通过函数进行非线性激活;
TFT‑Layer的输入是文本嵌入向量和上一隐层特征图, 分别通过两个全连接层学习调
制参数和, 用于控制特 征图的缩放操作, 用于控制特 征图的平 移操作;
调制融合模块设计成了残差结构, 包含主路的两个文本特征变换层、 两个卷积层和支
路的一个卷积层, 支路的卷积层是一个1 ×1的卷积操作, 在主路中, 特征图先后进 行两次特
征变换层调制后, 每次都经过一个3 ×3的卷积层, 另外, 并避免ReLU函数造成的稀疏问题,
所有激活函数使用LeakyReLU函数; 在残差结构最后的逐位相加之前, 使用一个可学习的自
适应系数α与主路的特征图相乘, 该参数初始化为0, 目的是方便输出在最开始的时候只学
习局部特征, 然后逐渐学会给经过文本调制后的特征赋予更多的权重; 每个调制融合模块
的输入是 上一隐层的特 征图和文本嵌入向量;
二、 建立生成器网络结构;
生成器由一个映射网络、 八个调制融合模块, 六个上采样模块和一个卷积层组成;
映射网络的作用是将噪声向量升维成为可以上采样的特征图, 输入是噪声z~N(0,1),
维度为(batchsize,100), 通过一个全连接层后输出(batchsize,4*4*100), 然后转换成
(batchsize,‑1,4,4)的特 征图;
三、 建立判断器网络结构
语义重构的判别器由一个特征提取器和三个分支组成的, 输出是batch ×256×4×4的
特征图, 三个分支包括: 语义重构分支、 无 条件损失分支和条件损失分支;
四、 建立对比学习网络进行对比损失;
对比学习网络 框架由生成器和判别器组成;
对比学习的目标是训练出一个编码器提取输入数据的特征, 使 匹配数据的评价分数大
于不匹配数据的评价分数, 计算对比损失, 作用于生成器;
五、 优化损失函数;
损失函数包括 生成对抗损失、 语义重构损失, 公式表示 为:
LG=LGadv+λ1Lrecon+λzLinfo
LD=LDadv
优化损失函数步骤如下:
1:设: Batchsize为N, D为判别器, G为生成器, t和t ’为相同语义 的文本, t^为不匹配文
本, g为文本编码器, f图像编码器,X为真实图像;
2:For{1, …,700}do, 训练周期70 0轮;
3:S=g(t), 得到文本嵌入向量;
4:S’=g(t’), 得到相同语义的文本嵌入向量;
5:
得到不匹配的文本嵌入向量;权 利 要 求 书 1/3 页
2
CN 115527216 A
26:z~N(0,1), 从随机高斯分布采样噪声;
6:X'=G(S,z), 生成图像, 匹配文本;
7:X”=G(S’,z), 生成图像, 匹配文本;
8:
生成图像, 不匹配文本;
9:D_real=D(X,t), 真实图像, 匹配文本;
10:D_fake=D(X^' ,S),D(X^ ”,S), 生成图像, 匹配文本;
11:L_D=hi nge(X,1)+hi nge(X^',‑1)+hinge(X^”,‑1), 判别器损失;
12:D←D‑η*L_D/D, 优化判别器;
13:L_G=hi nge(X^',1)+hinge(X^”,1)+L_info+L_reco n, 生成器损失;
14:G←G‑η*L_G/G, 优化 生成器;
15:结束。
2.根据权利要求1所述的一种基于调制融合和对比学习生成对抗网络的文本生成图像
方法, 其特征在于: 步骤一中用于控制特征图的缩放操作, 用于控制特征图的平移操作, 计
算公式如式1、 2和3;
γi, βi=Repeat(γi, βi) (2)
是所述的两个全连接神经网络, t表示文本嵌入向量, 维度为Batchsize ×256, i表
示网络的层数, 范围是[1,8], γi的维度和βi的维度相同, 维度为batchsize ×C;
和+分别
表示逐位相乘和逐位相加运算, 因为γ, β 是二 维矩阵, 为了能够进 行这样的运算, 需要进 行
空间复制(Repeat), 空间复制后, 维度为batchsize ×C×D×D; Hi和Hi+1分别表示输入的中
间层特征图和经 过调制后的中间层特 征图, 维度为batc hsize×C*D*D。
3.根据权利要求1所述的一种基于调制融合和对比学习生成对抗网络的文本生成图像
方法, 其特征在于: 步骤一中所述每个调制融合模块的输入是上一隐层的特征图和文本嵌
入向量表示 为式4、 5和6:
X1=Conv1(f(TFT(hi‑1, t))) (4)
X2=Conv2(f(TFT(X1, t))) (5)
hi=α *X2+Conv3(hi‑1) (6)
TFT表示调制融合模块, f表示LeakyReLU非线性激活, Conv1和Conv2表示主路的两个3
×3卷积层, Conv3表示支路的1 ×1卷积层; α 是一个可学习变量, 表示网络对于调制融合层
的关注程度, 自适应地学习调制融合特 征的重要性。
4.根据权利要求1所述的一种基于调制融合和对比学习生成对抗网络的文本生成图像
方法, 其特征在于: 步骤三中, 语义重构分支由两个级 联的卷积层组成, 将batch ×256×4×
4的特征图降维成为batc h×256的二维特 征向量; 语义重构分支具有三个作用:
1).将图像翻译到和文本嵌入向量相同的语义空间, 以此让特征提取器倾向于抽取语
义特征;
2).让生成器生成图像的语义特征和真实图像的语义特征更加接近, 增强模型的稳定权 利 要 求 书 2/3 页
3
CN 115527216 A
3
专利 基于调制融合和生成对抗网络的文本生成图像方法
文档预览
中文文档
26 页
50 下载
1000 浏览
0 评论
0 收藏
3.0分
温馨提示:本文档共26页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 SC 于 2024-02-18 22:23:50上传分享