听觉推理模型具体为将视觉特征输入编码器进行编码,利用解码器解码出对应的听觉特征,通过在生成的听觉特征与真实的听觉特征之间增加L2范数约束来更新该模型参数,并实现视觉特征到听觉特征的准确映射。模型在MSR-VTT、MSVD数据集上取得了理想的效果。 2.视听模态的生成 视听模态是视频中的两个共生模态,包含相同和互补信息。利用共同信息可实现模态间的相互转换。同时,互补信息可作为先验去辅助相关工作。...
当一边播放完整的5音节广告鸣叫,另一边播放第2个音节缺失的广告鸣叫时,约64%的雌蛙选择完整鸣叫(图3a)。当在缺失位置填上白噪音后,雌蛙的选择偏好没有发生改变(图3b),表明锯腿原指树蛙的鸣声通讯不具有非模态补整,即在缺失位置补上噪音无法使缺失鸣叫恢复为完整意义的鸣叫。 ...
脑部早期视觉皮层在处理不同的声音时,会有不同的模式,研究人员利用一种特殊算法能识别出这些独特模式,从而把不同声音区别开来。而另一项实验则揭示了在没有其他视听信息,早期视觉皮层处理这些声音信息时,志愿者所想象出图像。 该研究负责人、英国格拉斯哥大学(University of Glasgow)神经科学与心理学院教授 Lars Muckli 说:“声音也能产生视觉图像、心理图像和自动心理投射。...
信号备用假说(不同感官信号成分表达完全相同的信息)和多重信息假说(不同感官信号组分传递完全不同信息,导致整体信息量增加)都过分关注发送者的信息编码,而忽视了接收者的记忆和感知过程。此外,膨胀的声囊与声学线索相结合时,会更大程度地增加工作记忆,这可能解释了为什么许多雄蛙不顾捕食风险选择在一些显眼的位置鸣叫——在显眼的地方鸣叫可以更好地展示多模信号。...
Copyright ©2007-2022 ANTPEDIA, All Rights Reserved
京ICP备07018254号 京公网安备1101085018 电信与信息服务业务经营许可证:京ICP证110310号