听觉推理模型具体为将视觉特征输入编码器进行编码,利用解码器解码出对应的听觉特征,通过在生成的听觉特征与真实的听觉特征之间增加L2范数约束来更新该模型参数,并实现视觉特征到听觉特征的准确映射。模型在MSR-VTT、MSVD数据集上取得了理想的效果。 2.视听模态的生成 视听模态是视频中的两个共生模态,包含相同和互补信息。利用共同信息可实现模态间的相互转换。同时,互补信息可作为先验去辅助相关工作。...
野外观察发现,锯腿原指树蛙(Kurixalus odontotarsus)在自然条件下偶尔发出部分音节缺失的广告鸣叫(图1),可为探索非模态补整提供理想模型。 当一边播放完整的5音节广告鸣叫,另一边播放第2个音节缺失的广告鸣叫时,约64%的雌蛙选择完整鸣叫(图3a)。...
Copyright ©2007-2022 ANTPEDIA, All Rights Reserved
京ICP备07018254号 京公网安备1101085018 电信与信息服务业务经营许可证:京ICP证110310号