信息技术.视听对象的编码.第15部分:ISO基本媒体文件格式的网络抽象层(NAL)单元结构视频的传输, 您可以免费下载预览页
课题组提出并分析了三种视听觉特征深度融合框架,第一种为将视听觉信息简单并连在一起,第二种在视听特征编码阶段共享LSTM内部记忆单元,建立视听模态间的短时依赖性,第三种在视听特征编码阶段共享外部记忆单元,建立视听模态的长时依赖性。 同时,为了处理听觉模态缺失问题,课题组提出了一个动态多模态特征融合框架(如图2所示)。其核心模块为由一个编码器和一个解码器组成的听觉推理模型。...
Copyright ©2007-2022 ANTPEDIA, All Rights Reserved 京ICP备07018254号 京公网安备1101085018 电信与信息服务业务经营许可证:京ICP证110310号