专利内容由知识产权出版社提供
专利名称:一种去噪的语音识别方法及装置专利类型:发明专利
发明人:李索恒,汪俊,郑达,张志齐申请号:CN201910817758.7申请日:20190830公开号:CN110544479A公开日:20191206
摘要:本发明涉及通信技术领域,特别涉及一种去噪的语音识别方法及装置。该方法为:获取第一时段采集的音频信号;将所述第一时段采集的视频信号进行人脸识别,确定包含说话对象的图像帧;所述说话对象为根据所述视频信号中的图像帧中同一人脸的唇动特征确定的;根据所述包含说话对象的图像帧确定所述图像帧中说话对象的唇语特征;将所述包含说话对象的图像帧、所述图像帧中说话对象的唇语特征与所述第一时段采集的音频信号进行帧对齐;将帧对齐后所述包含说话对象的图像帧、所述图像帧中说话对象的唇语特征及所述第一时段采集的音频信号输入至语音识别模型中,确定所述说话对象的语音识别结果。
申请人:上海依图信息技术有限公司
地址:201125 上海市浦东新区耀华路488号1901E室
国籍:CN
代理机构:北京同达信恒知识产权代理有限公司
代理人:柴燕梅
更多信息请下载全文后查看