2024-05-07
【技术科普】什么是视频会议 语音追踪(Speaker Tracking)?
功能简介
多人参会,当有人发言,若画面全局,你可能难以专注会议内容, 注意力“失焦”。 而语音追踪(Speaker Tracking)功能能聚焦发言人并将其特写呈现于屏幕中央,实现会议全景和发言人细节兼备,使你畅享每一次会议沟通。
语音追踪(Speaker Tracking)如何实现?
语音追踪(Speaker Tracking)功能由麦克风阵列与摄像头配合完成。麦克风阵列由一定数量的麦克风组成,每个麦克风都位于阵列中的不同位置。
当会中有人发言,由于声音信号到达不同麦克风存在时间差, 麦克风阵列能够根据时间差,通过搭载的声源定位技术确定声源所在位置。
摄像头将接收以上的音频方位信息,并以该方位为目标进行追踪,以合适的比例框选发言人的特写。
其次,若会中无人发言时,语音追踪模式将自动调整为我们在自动框人像(Auto Framing)所介绍的自动框选模式。
技术优势
会议环境中,噪声与混响的存在,可能对声源定位产生干扰。 亿联的语音追踪 (Speaker Tracking)功能基于GCC-PHAT方案计算得出多组麦克风的相对角度;再利用统计算法做后处理, 能够有效对会议室环境中的混响、噪声进行过滤,使声源定位更加准确。
功能效果
产品应用
MeetingBoard系列、MeetingBar AX系列、UVC 86、UVC 40、SmartVision 40(即将上市,敬请期待)搭载了语音追踪(Speaker Tracking)功能。
基于语音追踪的衍生功能——唇动检测&对讲模式
唇动检测
水平麦克风阵列中的麦克风横向分布,在捕捉各方向声音的基础上,对水平方向声音的捕捉有显著的增强效果。
而对于其他方向上的语言追踪,唇动模式应运而生,摄像头通过捕捉连续的唇部动态帧信息,判读唇部的动态变化,识别并聚焦唇部正在动的发言人画面。
唇动检测能够很好地处理当参会者一前一后、多角度坐着等情况。唇动检测的可检范围:侧脸角度可覆盖至约-60°至+60°,俯仰角可覆盖至约-15°至30°(低头为负仰头为正)。 为多角度的语音追踪保驾护航。
技术优势
唇动检测所搭载的算法将进行人脸检测,采用关键点模型获取面部及唇部的关键坐标。相较常规的pfpld模型,该关键点模型能够有效覆盖较远距离处的非正脸场景。
NME(Normalized Mean Error)是一种用于衡量人脸关键点检测算法的性能的评估指标。值越小,表明表示关键点的预测结果越接近真实,算法性能越好。
产品应用
UVC 86与SmartVision 40(即将上市,敬请期待)支持唇动检测。UVC 86当在麦克风阵列接收到多个相似音频方位信息,无法区分时,将触发唇动检测;SmartVision 40在语音追踪过程中实时进行唇动检测。
对讲模式
当两人交替对话,响应及时的语音追踪模式会导致画面频繁切换,影响观感。这一情况下,你可以开启对讲模式,适应多种对话场景。当两人连续交替说话时,将框选两人的画面;而当对话结束,仅一人持续稳定说话时,则将聚焦该发言人的画面。
产品应用
UVC 86支持在Yealink Room Connect中开启对讲模式。
语音追踪(Speaker Tracking)如何发挥更佳水准?
由于算法基于人像识别&麦克风阵列拾音,身为参会者的我们,可以通过排除会议室中的干扰因素,来使算法发挥更佳水准。
使用功能前需进行镜头校准,确保定焦镜头近处无物体遮挡;在移动摄像机后需要重新校准。
避免会议室中出现玻璃 / 白板中的人像倒影、假人、卡通人物等。
避免参会者处于高曝光区域,导致漏检。
为使麦克风阵列声源定位效果发挥更佳,请尽可能远离室内外环境噪声源, 如: 交通噪声、空调噪声等。
对于外接了第三方音频设备的UVC 86,若出现误框选现象,请将版本升级至151.432.0.18,确认是否好转。