logo好方法网

基于联合分布最小二乘回归的跨数据库语音情感识别方法及装置


技术摘要:
本发明公开了一种基于联合分布最小二乘回归的跨数据库语音情感识别方法及装置,方法包括:(1)获取训练数据库和测试数据库,其中,训练语音数据库中包含有若干语音片段和对应的语音情感类别标签,测试数据库中仅包含有若干待识别语音片段;(2)利用若干声学低维描述子对  全部
背景技术:
语音情感识别的目的在于使得机器能够拥有足够智能从说话者的语音中提取它 的情感状态(如高兴、恐惧、悲伤等),是人机交互中重要的一个环节,拥有巨大的研究潜能 与发展前景。如结合驾驶员的语音、表情和行为信息检测其精神状态,可以及时提醒驾驶员 集中注意力避免危险驾驶;在人机交互中检测对话人的语音情感可以使得对话更加流畅, 更加照顾对话者的心理,贴近认知;可穿戴设备可以依据穿戴者的情感状态做出更为及时 和贴心的反馈;同时,在课堂教学、老师陪护等各种各样的领域,语音情感识别都在发挥着 越来越重要的作用。 传统的语音情感识别都在同一个语音数据库上进行训练和测试,训练和测试的数 据都遵循着同样的分布。而在实际生活中,训练出的模型必须面对不同的环境,发声背景中 也会掺杂着各种各样的噪音。因此跨数据库语音情感识别面临着很大的挑战。如何使训练 出的模型面对不同的环境都拥有良好的适应性,成为学术和工业界需要解决的问题。
技术实现要素:
发明目的:本发明针对现有技术存在的问题,提供一种基于联合分布最小二乘回 归的跨数据库语音情感识别方法及装置,本发明对于不同环境都拥有良好的适应性,识别 结果更准确。 技术方案:本发明所述的基于联合分布最小二乘回归的跨数据库语音情感识别方 法包括: (1)获取两个语音数据库,分别作为训练数据库和测试数据库,其中,训练语音数 据库中包含有若干语音片段和对应的语音情感类别标签,而测试数据库中仅包含有若干待 识别语音片段; (2)利用若干声学低维描述子对语音片段进行处理并进行统计,将统计得到的每 个信息作为一个情感特征,并将多个情感特征组成向量作为对应语音片段的特征向量; (3)建立基于联合分布的最小二乘回归模型,利用已知标签的训练数据库与未知 标签的测试数据库对其联合训练,得到一个连接语音片段与语音情感类别标签之间的稀疏 投影矩阵; (4)对于测试数据库中待识别语音片段,按照步骤(2)得到特征向量,并采用学习 到的稀疏投影矩阵,得到对应的语音情感类别标签。 进一步的,步骤(2)具体包括: (2-1)对于每个语音片段,计算其16个声学低维描述子值和对应增量参数;所述16  6 CN 111583966 A 说 明 书 2/8 页 个声学低维描述子分别为:时间信号过零率、帧能量均方根、基音频率、谐波信噪比以及梅 尔顿频率倒谱系数1-12; (2-2)对于每个语音片段,分别对其16个声学低维描述子进行12种统计函数处理, 所述12种统计函数分别为求平均值、标准差、峰态、偏度、最大值、最小值、相对位置、相对范 围,以及两个线性回归系数及其均方误差; (2-3)将统计得到的每个信息作为一个情感特征,并将多个情感特征组成向量作 为对应语音片段的特征向量。 进一步的,步骤(3)建立的最小二乘回归模型为: 式中, 表示找到使括号内式子最小的矩阵P,Ls∈Rc×n为训练数据库语音片段 的语音情感类别标签向量,C为语音情感类别的类数,n为训练数据库语音片段的个数,Xs∈ Rd×n为训练数据库语音片段的特征向量,d为特征向量的维数,P∈Rd×c为稀疏投影矩阵,PT为 P的转秩矩阵 , 为F r o b e n i u s范数的平方,λ、μ为控制正则项的权衡系数, X ∈Rd×mt 为测试数据库语音片段的特征向量,  m为测试数据库语音 片段的段数, 分别为训练数据库、测试数据库 中情感类别属于第c类的语音片段的集合,nc、mc分别为测试数据库中情感类别属于第c类的 语音片段的个数,||  ||2,1为2,1范数。 进一步的,步骤(3)中所述利用已知标签的训练数据库与未知标签的测试数据库 对其进行联合训练的方法具体包括: (3-1)将所述最小二乘回归模型转换为: s.t.P=Q (3-2)通过上述转换后的最小二乘回归模型,估算测试数据库中所有语音片段对 应的语音情感类别伪标签形成的伪标签矩阵 (3-3)根据伪标签矩阵 统计得到 和mc,进而计算得到 (3-4)基于 对转换后的最小二乘回归模型利用增广拉格朗日乘子法进行求 解,得到投影矩阵估计值 (3-5)根据投影矩阵估计值 采用下式对伪标签矩阵 进行更新: 7 CN 111583966 A 说 明 书 3/8 页 式中, 表示中间辅助变量, 为 第i列第j行的元素, 表示求取 第i列元素值最大的一行的行数j, 是伪标签矩阵 第i列第k行的元素; (3-6)采用更新后的伪标签矩阵 返回执行步骤(3-3),直至达到预设的循环次 数后,将循环结束后得到的的投影矩阵估计值 作为学习得到的投影矩阵P。 进一步的,步骤(3-2)具体包括: (3-2-1)利用转换后的最小二乘回归模型不加正则项的公式,求得投影矩阵估计 值的初始值 (3-2-2)根据投影矩阵的初始值 采用下式得到伪标签矩阵的初始值: 式中, 表示中间辅助变量, 是伪标签矩阵的初始值 第i列第k行的元素。 进一步的,步骤(3-4)具体包括: (3-4-1)获取所述最小二乘回归模型的增广拉格朗日方程: 式中,T为拉格朗日乘子,k>0为一个正则参数,tr( )表示求矩阵的迹; (3-4-2)保持P、T、k不变,更新Q: 将增广拉格朗日方程中与变量Q有关的部分提出,得到: 求解上式,得到: (3-4-3)保持Q、T、k不变,更新P: 将增广拉格朗日方程中与变量P有关的部分提出,得到: 8 CN 111583966 A 说 明 书 4/8 页 求解上式,得到: Pi是P的第i个列向量,Ti是T的第i个列向量; (3-4-4)保持Q、P不变,更新T、k: T=T k(P-C) k=min(ρk,kmax) 式中,kmax是预设k的最大值,ρ是缩放系数,ρ>1; (3-4-5)检查是否收敛: 检查||P-Q||∞<ε是否成立,若否,则返回执行步骤(3-4-2),若是或迭代次数大于 设置值,则将此时的P的值作为所求的稀疏投影矩阵,||  ||∞表示求数据中的最大元素,ε表 示收敛阈值。 进一步的,步骤(4)中所述测试数据库的语音情感类别标签的计算方法为: 采用下式计算: 式中,P为我们学习到的最终的投影矩阵,Xt表示测试数据库语音片段的特征向量 集合,即待识别语音片段的特征向量集合, 表示中间辅助变量,j*表示待识别语音片段的 语音情感类别标签。 本发明所述的基于联合分布最小二乘回归的跨数据库语音情感识别装置包括处 理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实 现上述方法。 有益效果:本发明与现有技术相比,其显著优点是:本发明的跨数据库语音情感识 别方法及装置是在跨库学习,因此,对于不同环境都拥有良好的适应性,识别结果更准确。 附图说明 图1是本发明提供的基于联合分布最小二乘回归的跨数据库语音情感识别方法的 流程示意图。
分享到:
收藏