信息技术 视听对象编码 第2部分:视觉 技术勘误表 4, 您可以免费下载预览页
听觉推理模型具体为将视觉特征输入编码器进行编码,利用解码器解码出对应的听觉特征,通过在生成的听觉特征与真实的听觉特征之间增加L2范数约束来更新该模型参数,并实现视觉特征到听觉特征的准确映射。模型在MSR-VTT、MSVD数据集上取得了理想的效果。 2.视听模态的生成 视听模态是视频中的两个共生模态,包含相同和互补信息。利用共同信息可实现模态间的相互转换。同时,互补信息可作为先验去辅助相关工作。...
Copyright ©2007-2022 ANTPEDIA, All Rights Reserved 京ICP备07018254号 京公网安备1101085018 电信与信息服务业务经营许可证:京ICP证110310号