功能简介

多人参会，当有人发言，若画面全局，你可能难以专注会议内容，注意力“失焦”。而语音追踪（Speaker Tracking）功能能聚焦发言人并将其特写呈现于屏幕中央，实现会议全景和发言人细节兼备，使你畅享每一次会议沟通。

语音追踪（Speaker Tracking）如何实现？

语音追踪（Speaker Tracking）功能由麦克风阵列与摄像头配合完成。麦克风阵列由一定数量的麦克风组成，每个麦克风都位于阵列中的不同位置。

当会中有人发言，由于声音信号到达不同麦克风存在时间差，麦克风阵列能够根据时间差，通过搭载的声源定位技术确定声源所在位置。

摄像头将接收以上的音频方位信息，并以该方位为目标进行追踪，以合适的比例框选发言人的特写。
ST原理0226.gif

其次，若会中无人发言时，语音追踪模式将自动调整为我们在自动框人像（Auto Framing）所介绍的自动框选模式。

会议环境中，噪声与混响的存在，可能对声源定位产生干扰。亿联的语音追踪（Speaker Tracking）功能基于GCC-PHAT方案计算得出多组麦克风的相对角度；再利用统计算法做后处理，能够有效对会议室环境中的混响、噪声进行过滤，使声源定位更加准确。

ST效果.gif

MeetingBoard系列、MeetingBar AX系列、UVC 86、UVC 40、SmartVision 40（即将上市，敬请期待）搭载了语音追踪（Speaker Tracking）功能。

水平麦克风阵列中的麦克风横向分布，在捕捉各方向声音的基础上，对水平方向声音的捕捉有显著的增强效果。

而对于其他方向上的语言追踪，唇动模式应运而生，摄像头通过捕捉连续的唇部动态帧信息，判读唇部的动态变化，识别并聚焦唇部正在动的发言人画面。

唇动检测能够很好地处理当参会者一前一后、多角度坐着等情况。唇动检测的可检范围：侧脸角度可覆盖至约-60°至+60°，俯仰角可覆盖至约-15°至30°（低头为负仰头为正）。为多角度的语音追踪保驾护航。

2唇动.gif

唇动检测所搭载的算法将进行人脸检测，采用关键点模型获取面部及唇部的关键坐标。相较常规的pfpld模型，该关键点模型能够有效覆盖较远距离处的非正脸场景。

未标题1.png

NME（Normalized Mean Error）是一种用于衡量人脸关键点检测算法的性能的评估指标。值越小，表明表示关键点的预测结果越接近真实，算法性能越好。

sdfdsf未标题1.png

UVC 86与SmartVision 40（即将上市，敬请期待）支持唇动检测。UVC 86当在麦克风阵列接收到多个相似音频方位信息，无法区分时，将触发唇动检测；SmartVision 40在语音追踪过程中实时进行唇动检测。

当两人交替对话，响应及时的语音追踪模式会导致画面频繁切换，影响观感。这一情况下，你可以开启对讲模式，适应多种对话场景。当两人连续交替说话时，将框选两人的画面；而当对话结束，仅一人持续稳定说话时，则将聚焦该发言人的画面。

ST P3.gif

UVC 86支持在Yealink Room Connect中开启对讲模式。

分類

TAG

技术科普[8]