专利基于调制融合和生成对抗网络的文本生成图像方法 -在线下载 -pdf文件-bbs.720life.cn

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202211399263.5 (22)申请日 2022.11.09 (71)申请人中国矿业大学（北京）地址 100083 北京市海淀区学院路丁1 1号 (72)发明人高文超　周思杰　张杰　陈诗雨　任圣博　 (74)专利代理机构成都方圆聿联专利代理事务所(普通合伙) 51241 专利代理师苟铭 (51)Int.Cl. G06V 30/19(2022.01) G06V 10/82(2022.01) G06V 10/80(2022.01) G06N 3/04(2006.01) G06N 3/08(2006.01) (54)发明名称基于调制融合和生成对抗网络的文本生成图像方法 (57)摘要本发明公开了一种基于调制融合和对比学习生成对抗网络的文本生成图像方法，包括以下步骤：建立调制融合模块，设计成了残差结构，包含主路的两个文本特征变换层、两个卷积层和支路的一个卷积层；建立生成器，由一个映射网络、八个调制融合模块，六个上采样模块和一个卷积层组成。建立判断器网络结构判别器由一个特征提取器和三个分支组成的，三个分支包括：语义重构分支、无条件损失分支和条件损失分支。建立对比学习网络进行对比损失；优化损失函数，损失函数包括生成对抗损失、语义重构损失。本发明可以生成更加符合文本语义的图像，对于图像的真实度和语义一致性都有提升，对于图像的生成质量有了进一步提升。权利要求书3页说明书17页附图5页 CN 115527216 A 2022.12.27 CN 115527216 A 1.一种基于调制融合和对比学习生成对抗网络的文本生成图像方法，其特征在于，包括以下步骤：一、建立调制融合模块；创建文本特征变换层(Text Feature Transform Layer， TFT ‑Layer)，文本特征变换层包含两个并行的全连接神经网络生成调制参数，并且为了增强条件向量的表达能力，全连接层之间通过函数进行非线性激活； TFT‑Layer的输入是文本嵌入向量和上一隐层特征图，分别通过两个全连接层学习调制参数和，用于控制特征图的缩放操作，用于控制特征图的平移操作；调制融合模块设计成了残差结构，包含主路的两个文本特征变换层、两个卷积层和支路的一个卷积层，支路的卷积层是一个1 ×1的卷积操作，在主路中，特征图先后进行两次特征变换层调制后，每次都经过一个3 ×3的卷积层，另外，并避免ReLU函数造成的稀疏问题，所有激活函数使用LeakyReLU函数；在残差结构最后的逐位相加之前，使用一个可学习的自适应系数α与主路的特征图相乘，该参数初始化为0，目的是方便输出在最开始的时候只学习局部特征，然后逐渐学会给经过文本调制后的特征赋予更多的权重；每个调制融合模块的输入是上一隐层的特征图和文本嵌入向量；二、建立生成器网络结构；生成器由一个映射网络、八个调制融合模块，六个上采样模块和一个卷积层组成；映射网络的作用是将噪声向量升维成为可以上采样的特征图，输入是噪声z～N(0,1)，维度为(batchsize,100)，通过一个全连接层后输出(batchsize,4*4*100)，然后转换成 (batchsize,‑1,4,4)的特征图；三、建立判断器网络结构语义重构的判别器由一个特征提取器和三个分支组成的，输出是batch ×256×4×4的特征图，三个分支包括：语义重构分支、无条件损失分支和条件损失分支；四、建立对比学习网络进行对比损失；对比学习网络框架由生成器和判别器组成；对比学习的目标是训练出一个编码器提取输入数据的特征，使匹配数据的评价分数大于不匹配数据的评价分数，计算对比损失，作用于生成器；五、优化损失函数；损失函数包括生成对抗损失、语义重构损失，公式表示为： LG＝LGadv+λ1Lrecon+λzLinfo LD＝LDadv 优化损失函数步骤如下： 1:设： Batchsize为N， D为判别器， G为生成器， t和t ’为相同语义的文本， t^为不匹配文本， g为文本编码器， f图像编码器,X为真实图像； 2:For{1, …,700}do，训练周期70 0轮； 3:S＝g(t)，得到文本嵌入向量； 4:S’＝g(t’)，得到相同语义的文本嵌入向量； 5: 得到不匹配的文本嵌入向量；权　利　要　求　书 1/3 页 2 CN 115527216 A 26:z～N(0,1)，从随机高斯分布采样噪声； 6:X'＝G(S,z)，生成图像，匹配文本； 7:X”＝G(S’,z)，生成图像，匹配文本； 8: 生成图像，不匹配文本； 9:D_real＝D(X,t)，真实图像，匹配文本； 10:D_fake＝D(X^' ,S),D(X^ ”,S)，生成图像，匹配文本； 11:L_D＝hi nge(X,1)+hi nge(X^',‑1)+hinge(X^”,‑1)，判别器损失； 12:D←D‑η*L_D/D，优化判别器； 13:L_G＝hi nge(X^',1)+hinge(X^”,1)+L_info+L_reco n，生成器损失； 14:G←G‑η*L_G/G，优化生成器； 15:结束。 2.根据权利要求1所述的一种基于调制融合和对比学习生成对抗网络的文本生成图像方法，其特征在于：步骤一中用于控制特征图的缩放操作，用于控制特征图的平移操作，计算公式如式1、 2和3； γi， βi＝Repeat(γi， βi) (2) 是所述的两个全连接神经网络， t表示文本嵌入向量，维度为Batchsize ×256， i表示网络的层数，范围是[1,8]， γi的维度和βi的维度相同，维度为batchsize ×C；和+分别表示逐位相乘和逐位相加运算，因为γ, β 是二维矩阵，为了能够进行这样的运算，需要进行空间复制(Repeat)，空间复制后，维度为batchsize ×C×D×D； Hi和Hi+1分别表示输入的中间层特征图和经过调制后的中间层特征图，维度为batc hsize×C*D*D。 3.根据权利要求1所述的一种基于调制融合和对比学习生成对抗网络的文本生成图像方法，其特征在于：步骤一中所述每个调制融合模块的输入是上一隐层的特征图和文本嵌入向量表示为式4、 5和6： X1＝Conv1(f(TFT(hi‑1， t))) (4) X2＝Conv2(f(TFT(X1， t))) (5) hi＝α *X2+Conv3(hi‑1) (6) TFT表示调制融合模块， f表示LeakyReLU非线性激活， Conv1和Conv2表示主路的两个3 ×3卷积层， Conv3表示支路的1 ×1卷积层； α 是一个可学习变量，表示网络对于调制融合层的关注程度，自适应地学习调制融合特征的重要性。 4.根据权利要求1所述的一种基于调制融合和对比学习生成对抗网络的文本生成图像方法，其特征在于：步骤三中，语义重构分支由两个级联的卷积层组成，将batch ×256×4× 4的特征图降维成为batc h×256的二维特征向量；语义重构分支具有三个作用： 1).将图像翻译到和文本嵌入向量相同的语义空间，以此让特征提取器倾向于抽取语义特征； 2).让生成器生成图像的语义特征和真实图像的语义特征更加接近，增强模型的稳定权　利　要　求　书 2/3 页 3 CN 115527216 A 3

专利 基于调制融合和生成对抗网络的文本生成图像方法

专利基于调制融合和生成对抗网络的文本生成图像方法