摘 要: | 随着大数据时代的到来,快速而有效地辨别声纹已经成为智能感知领域的重要需求,而传统神经网络和单拾音器系统的辨别精度不高,样本数据量大,其运算速度严重制约了系统的实时性.文中方法通过拾音阵列获取目标声源的位置和时频域信息,利用GPU并行构造掩蔽函数,实现信号数据级融合,强化目标语音特征,然后将多通道的MFCC(mel-frequency cepstral coefficient)声纹参数进行特征级融合,输入深度信念网络(deep belief network,DBN)进行训练和识别,同时使用CUDA(compute unified device architecture)平台对DBN的训练过程进行了并行优化.该方法能在多声源环境下全面地提取目标声纹,有效提高声纹辨别准确率,缩短数据训练耗时,保证了系统实时性.该方法为大数据环境下语音信号高性能处理提供了一种实现方式.
|