名奢网 › 名表› 名表日报 › 查看内容

ASRU2021｜快手如何玩转复杂场景下的说话人辨认？-语音之家

2023-1-7 19:49| 发布者: 挖安琥| 查看: 132| 评论: 0

放大缩小

简介：【语音之家讯】快手是一个短视频社区，短视频和直播中通常混合各种方式的声音，如语音、音乐、特效音和背景噪声等，这些声音很好的提升了短视频和直播的用户消费体验，但同时也为音频内容了解带来极大的艰难和应战 ...

【语音之家讯】

快手是一个短视频社区，短视频和直播中通常混合各种方式的声音，如语音、音乐、特效音和背景噪声等，这些声音很好的提升了短视频和直播的用户消费体验，但同时也为音频内容了解带来极大的艰难和应战。如何在复杂场景下精确高效的中止说话人辨认，通常需求引入音频降噪/分别技术，本文针对复杂场景下的说话人辨认分别提出了一种多任务音频分别技术和基于AutoML神经网络搜索架构的说话人辨认技术，两篇论文均被ASRU 2021接纳。

来源丨快手技术团队

初次提出多任务音频分别措施（MTASS，Multi-Task Audio Source Separation）。多任务音频分别将语音增强、语音分别和音乐分别等多种单一任务融合起来，应用一个模型，同时完成语音、音乐和噪声（特效音）的分别和增强。
初次胜利将AutoML神经网络搜索架构应用于大范围说话人辨认任务，提出SpeechNAS说话人辨认技术。在大范围说话人辨认数据集VoxCeleb1中，相比原始说话人辨认模型，SpeechNAS能够仅运用69%的参数量抵达最优的性能。

多任务音频分别

随着短视频和在线直播的快速展开，移动互联网时期对前端音频信号的处置需求和难度也越来越大。这些场景中的音频信号通常包含各种类型的声源，例如语音、音乐、特效音和背景噪声等。真实场景具有复杂多变的声学环境，这些声源可能会在传播过程中变更，并在空间和时间中相互堆叠。声源的堆叠会对语音音质、音频处置技术构成负面影响。同时，语音、音乐、特效音和噪声关于剖析音频具有重要的意义。如何在混合音频中，取得较为纯真的语音、音乐、特效音，成为了一项研讨热点和实践中频繁遇到的问题。

关于此类实践需求，目前业界更多的是采用单任务分别/增强措施。例如语音增强、语音分别、音乐声源分别和歌唱伴奏分别等。语音增强旨在去除音频中的噪声，恢复洁净的语音信号。语音分别的目的是将音频中的不同说话人语音分别。音乐声源分别和歌唱伴奏分别把音乐信号中各种声源信号中止分别。但是此类单任务分别/增强措施在实践应用中具有一些局限性：

此类措施仅思索了一种状况，在复杂的真实场景中，此类措施普通是不适用的。
混合音频中可能含有语音、音乐、特效音，不同的任务需求提取不同的音频信号。可能需求多种增强/分别措施的组合，这种模型的组合构成了资源的糜费。

基于以上剖析，我们提出了一个音频分别新任务：多任务音频分别MTASS。多任务音频分别研讨如何从混合音频中同时分别语音、音乐和噪声。语音指说话人正常说话的语音数据，音乐包含各种乐器声、背景音乐和歌唱人声，噪声指除去语音和音乐后的剩余音频信号，包含噪声、特效声等。我们深化研讨了多任务音频分别，主要贡献如下：

第一次提出了多任务音频分别任务。多任务音频分别更贴近于应用场景，第一次衔接了语音和音乐的分别。并提出了MTASS-Dataset数据集。
我们为多任务音频分别任务提出了一个基于复频域的两阶段模型，名为Complex-MTASSNet。Complex-MTASSNet自创了复频域处置措施并参考音乐信号自身的频率稠密性，在复频域中中止分别。同时，Complex-MTASSNet由分别模块和残留信号弥补模块组成，粗分别后对每个分别轨道的信号中止细化。
我们全面系统地剖析、比较了Complex-MTASSNet和当前主流的语音分别/增强的相关措施，实验考证了Complex-MTASSNet优势。

MTASS数据集

ASRU2021｜快手如何玩转复杂场景下的说话人辨认？-语音之家

MTASS数据集包含55.6小时锻炼集、2.8小时开发集和2.8小时测试集。其中语音、音乐和噪音数据均为10秒的片段，采样率为16kHz。MTASS的语音数据由中文语音数据组成，锻炼集中包含100个说话人，开发集和测试集各包含50个说话人。MTASS的音乐数据由完好歌曲组成，锻炼集中包含70首歌曲，开发集和测试集各包含15首歌曲。关于每个音频片段，音乐和噪音都以随机-5到5dB信噪比参与到语音中。

措施引见

Complex-MTASSNet是基于复频域的两阶段多任务音频分别模型，如图1所示，包含分别模块和残留信号弥补模块。基于傅立叶变换，Complex-MTASSNet在复频域中粗分别出每个音轨的信号，之后对每个音轨走漏的残留信号中止弥补。

如图 2 所示，Complex-MTASSNet的分别模块采用多尺度TCN结构，并添加了一个基于复频域的解码器来分别不同的音频源。在编码器部分，输入特征首先经过一个全衔接的线性层转换为高维的特征表示。然后，堆叠多层多尺度卷积残差模块能够在更细粒度的级别上对音频信号的时间依赖性中止建模，在解码部分，对三个分别轨道分别中止复频域掩蔽的估量。

ASRU2021｜快手如何玩转复杂场景下的说话人辨认？-语音之家

固然分别模块能够将每个音轨的信号分开，但每个音轨都可能有从其他音轨走漏的残留信号。因而，我们提出了一种先分别后弥补的两阶段处置结构。设计的残留信号估量模块能够从非目的音轨中估量目的音轨的残留信号，然后对目的音轨中止弥补。关于残留信号估量模型的设计，我们采用了门控TCN结构，如图3所示。在该模型中，门控残差模块被重复多次以完成对目的音频信号的上下文信息中止建模。

实验结果

我们在MTASS-Dataset数据集上考证Complex-MTASSNet的性能。并应用信噪比改善（SDRi）来评价模型的性能。我们评价了 Complex-MTASSNet 的分别性能和计算复杂度，并将其与语音增强、语音分别和音乐分别方面的几个主流模型中止了比较，它们分别是GCRN、Conv-TasNet、Demucs和D3Net。

ASRU2021｜快手如何玩转复杂场景下的说话人辨认？-语音之家

从上表来看，Complex-MTASSNet效果好于基线模型，这是由于提出的两阶段战略有效地辅佐 Complex-MTASSNet 提升性能。Complex-MTASSNet 在三个分别音轨上都完成了最佳 SDRi，在语音、音乐和噪声轨上分别为12.57dB、9.86dB 和 8.42dB。

ASRU2021｜快手如何玩转复杂场景下的说话人辨认？-语音之家

除了分别性能，我们还剖析了模型的参数量和计算复杂度，这也是在应用场景中部署模型时需求思索的关键点。我们主要关注模型大小（参数量）、模型每秒乘加运算量（MAC/S）、模型在CPU（Intel Xeon 5120）和GPU（Nvidia 2080Ti）上处置每秒数据所需的时间（实时率），细致结果列于表6中。Complex-MTASSNet的参数为28.18 M，仅比Demucs小，但模型所需的MAC/S最少。这是由于 Complex-MTASSNet 主要运用一维卷积，避免了运用大量二维共享卷积操作带来的计算担负。从实时率测试来看，所提出的模型在 CPU 和 GPU 平台上都显现出良好的实时性能。Complex-MTASSNet 在复杂性测试中表示相对均衡，同时确保最佳分别性能。

基于AutoML神经网络搜索的大范围说话人辨认新措施SpeechNAS

ASRU2021｜快手如何玩转复杂场景下的说话人辨认？-语音之家

随着深度学习技术的兴起，工业界和学术界都曾经把主要留意力放到了基于深度学习的说话人辨认技术。三年前提出的x-vector，即时延神经网络（Time Delay Neural Network, TDNN）曾经成为了说话人辨认的规范技术。相比于TDNN，Extended TDNN（E-TDNN）距离结构TDNN和全衔接衔接层，Factorized TDNN（F-TDNN）经过将每层TDNN的权值矩阵合成为两个低秩矩阵的乘积，进一步减少TDNN的参数量。Densely connected TDNN（D-TDNN）运用bottleneck层和dense衔接层，以及通道选择机制，进一步降低基于TDNN的说话人辨认的错误率。去年提出的ECAPA-TDNN基于Squeeze-and-Excitation ResNet 网络结构，刷新了大范围说话人辨认的最低错误率。

为了有效地从数据中学习得到最优的神经网络结构，进一步降低说话人辨认的错误率，以及降低神经网络的参数量和推理延迟，快手研讨团队AI Platform 和 MMU （MultiMedia Understanding）分离提出了一种基于音频信号的说话人辨认新措施SpeechNAS。

SpeechNAS第一个胜利运用神经网络架构搜索处置大范围说话人辨认任务，在大范围说话人辨认公开数据集VoxCeleb1中，仅运用69%的参数量即可与目前业界最优模型坚持性能分歧。细致地说，我们首先结构一种全新的搜索空间，包含每层子网络分支个数，特征维度和通道选择的特征维度，试图从数据中自动取得逐层最优的网络结构。然后，我们开发了基于贝叶斯优化的神经网络搜索框架，从已锻炼的超网络中搜索出最优候选网络。最后，我们设计一种全新的混合损失函数，加性距离软最大损失（additive margin softmax loss）和最小超球面能量（minimum hyper-spherical energy），重新锻炼搜索出的最优候选网络。SpeechNAS的主要贡献包含如下三点：

第一次胜利将神经网络架构搜索应用在大范围说话人辨认系统上。
第一次全面系统地比较了当前说话人辨认的相关措施。主要的度量指标包含，参数量，GFLOPs，延迟，等错误率（Equal Error Rate, EER），以及目的概率0.01和0.001的最小检测损失函数值（Detection Cost Function, DCF）。
SpeechNAS依据不同的搜索空间和战略，共得到五个参数量和FLOPs不同的神经网络结构，命名为SpeechNAS-1，…，SpeechNAS-5。在大范围说话人辨认任务中，SpeechNAS-5取得了比之前其他基于TDNN措施更低的错误率。相比于最新的措施ECAPA-TDNN，SpeechNAS-5能够在性能分歧时参数量降低31%。

在大范围说话人辨认测试集VoxCeleb1上，SpeechNAS运用较少的参数量，同时取得了较低的错误率。参数量和错误率对比详见下图。

措施引见

SpeechNAS的流程框架见下图。我们结构神经网络架构搜索空间，基于神经网络架构搜索空间，取得超网络。关于超网络锻炼中的每个batch，随机平均采样取得一个子网络。每个batch仅更新学习该随机平均采样取得的子网络。超网络锻炼完后，我们开发贝叶斯优化搜索，取得最优子网络结构候选。最后，我们运用设计的新的混合损失函数，重新锻炼最优子网络结构。

ASRU2021｜快手如何玩转复杂场景下的说话人辨认？-语音之家

SpeechNAS的每层搜索空间结构如下。SpeechNAS主要基于D-TDNN结构。首先，我们中止分支数b搜索。不同的分支能够处置不同长度的语音上下文信息，直接决议特征抽取的粒度。然后，我们中止特征维度c搜索。特征的维度决议模型的复杂度，以及特征的表白才干。该特征维度搜索的目的在于从数据中自动设计逐层最优的网络模型复杂度。最后，我们中止通道选择维度d搜索。通道选择能够增强特征学习。太复杂的通道选择可能过拟合数据；太简单的通道选择可能无法提供足够的高判别性特征留意力。SpeechNAS能够很好地中止逐层最优结构设计。

ASRU2021｜快手如何玩转复杂场景下的说话人辨认？-语音之家

我们能够运用下图公式来描画SpeechNAS的逐层计算过程。b 即为分支个数，TDNN的维度为特征维度搜索结果，f为全衔接层，其维度为通道选择维度搜索结果。h为上一层的网络特征，mu，sigma，s，k为计算通道选择特征z所需求的一阶，二阶，三阶，四阶统计量。

ASRU2021｜快手如何玩转复杂场景下的说话人辨认？-语音之家

最后，我们拼接经过通道选择后的特征，得到本层的特征，传送到下一层。

ASRU2021｜快手如何玩转复杂场景下的说话人辨认？-语音之家

实验结果

我们在大范围说话人辨认数据集上考证了SpeechNAS的性能。我们运用了两个数据集，一个是规范的大范围说话人辨认数据集VoxCeleb2和VoxCeleb1锻炼集，另一个是六倍扩增的数据集考证SpeechNAS的泛化性能。测试集均为VoxCeleb1测试集。规范数据集包含超越百万的语音片段，超越2,000小时语音数据，总共超越7,323个说话人。

ASRU2021｜快手如何玩转复杂场景下的说话人辨认？-语音之家

下表是在VoxCeleb1数据集上，和前人最好的措施比较结果。粗体表示最好的结果。*表示运用扩增锻炼集锻炼的结果。延迟是在单张NVIDIA GEFORCE RTX 2080 Ti显卡平均1000次推理时间，批大小为128得到的。由于GPU内存大小限制，TDNN推理的批大小为24。

ASRU2021｜快手如何玩转复杂场景下的说话人辨认？-语音之家

我们在表中第一次系统地比较了当前最好的说话人辨认相关措施。从下表能够看出，SpeechNAS取得了比前人更低的错误率，同时延迟也比较低。SpeechNAS能够很友好地部署在高并发用户量大的超级应用中。重新在六倍扩增数据集上锻炼SpeechNAS-5，能够取得更低的错误率，从而考证了SpeechNAS的泛化性能。相比于当前最好的措施ECAPA-TDNN（基于SE ResNet，参数量为6.2M，相同实验配置下等错误率为1.01%），SpeechNAS运用TDNN结构搜索，仅运用4.3M的参数量，即可取得1.02%相当的等错误率。参数量降低31%。

总结

在本次ASRU2021中，快手分别提出了多任务音频分别MTASS和基于AutoML神经网络搜索的说话人辨认模型SpeechNAS。

业内初次提出多任务音频分别技术：一个模型完成语音、音乐和噪声的分别和增强，该模型能够同时满足不同下游任务的需求，节约线上资源。目前，多任务音频分别作为基础技术，助力语音辨认字错误率相对降低10%以上；音乐检索技术在精确率不变时召回率提升15%；说话人辨认准召提升10%/15%。多任务音频分别技术显著提升下游音频技术性能，并直接支持引荐、音乐、智能创作等多种业务。
业内初次胜利将AutoML神经网络搜索应用到说话人辨认任务，提出的SpeechNAS目前得到普遍应用，包含快手社区保险、同城、直播、引荐、素材发掘等多个业务场景，为各个业务带来显著收益。