信息技术.音频-可视对象的编码.第19部分:合成结构流 是非强制性国家标准,您可以免费下载预览页
研究人员将视频帧表示为xi=V(fi),其中fi为第i帧,V(.)是提取VGG19网络中FC6特征的操作,它已经在ImageNet上进行过预训练,xi是一个4096维向量。在序列到序列的模型中,视频编码器和声音生成器明显是分开的,并通过一个bottleneck来表示连接,它将编码的可视信息提供给声音生成器。如上图中红色框的(c)区所示,研究人员建立了一个递归神经网络来编码视频特征。...
Copyright ©2007-2022 ANTPEDIA, All Rights Reserved 京ICP备07018254号 京公网安备1101085018 电信与信息服务业务经营许可证:京ICP证110310号