
技术摘要:
本发明公开了一种单双点平滑结合的流形正则化半监督文本分类方法,包括:1)采集包含已标记文本样本、未标记文本样本的真实样本数据集;2)通过无监督学习方法FCM获得实例位于非边缘区域的概率,并且通过实例与其近邻点之间的归一化距离来获取实例的局部密度;3)利用步骤 全部
背景技术:
文本分类问题与其它分类问题没有本质上的区别,其方法可以归结为根据待分类 数据的某些特征来进行匹配,当然完全的匹配是不太可能的,因此必须(根据某种评价标 准)选择最优的匹配结果,从而完成分类。其中分类器的选择与训练、分类结果的评价与反 馈十分重要。文本分类是机器学习的基本任务。 文本分类可分为两大类,即监督分类和半监督分类。监督分类是文本样本全部具 有标号,半监督分类是部分文本样本具有标号,部分文本样本不具有标号。在实际中,无标 号的文本比有标号的文本成本低、易获取,因此,从可应用的信息量角度可以看出,半监督 文本分类在现实应用中有很强的需求并且已经引起了相当大的关注,它是通过结合已标记 和未标记文本来学习的,取得比单独使用已标记文本更好的性能。半监督分类中两个常见 的假设,聚类假设和流形假设。半监督分类MR遵循流形假设,采用双点平滑约束流形图上的 相似实例共享相似的分类输出,即平滑约束是在所有实例对上实现的,也就是视每个实例 对为单位。 然而,平滑在本质上是以单个实例为单位的,也就是说,平滑性应该发生在“任何 地方”,通过将每个单点行为与其近邻的行为联系起来。虽然在一些研究中认为单点平滑是 合理的,但在具有流形假设的MR中,它和双点平滑还没有同时实现。
技术实现要素:
本发明所要解决的技术问题是针对上述现有技术存在的问题和不足,本发明目的 是对于文本数据集进行文本分类,通过结合实例对平滑和单个实例的平滑来实现半监督学 习。通过这种方式,单双点的平滑都被取利用,都具重要性且做出贡献,这种重要性可以是 双点约束信息,也可以是单点局部密度。以解决现有技术忽略平滑在本质上是以单个实例 为单位的问题。 本发明为解决上述技术问题采用以下技术方案是:一种单双点平滑结合的流形正 则化半监督文本分类方法,该方法包括以下步骤: 步骤1,采集包含已标记文本样本、未标记文本样本的真实样本数据集; 步骤2,通过无监督学习方法FCM获得实例位于非边缘区域的概率,并且通过实例 与其近邻点之间的归一化距离来获取实例的局部密度; 步骤3,利用步骤2中获得的概率和局部密度在MR中的第三项的双点平滑约束中加 入单点平滑约束; 步骤4,利用平方损失或者铰链损失函数制定一个统一的分类目标函数 4 CN 111581380 A 说 明 书 2/8 页 其中 或者 其中 步骤5,设置其中的正则化参数和核函数等参数; 步骤6,输入待分类文本数据,利用文本分类函数进行分类,获得文本的类别。 进一步的,本发明提出的方法中,步骤1是在UCI公开数据集和benchmark数据集, 采集文本真实数据。 进一步的,本发明提出的方法中,步骤1所述采集文本真实样本数据集包含多个 web页面,首先使用网页的文本内容,忽略链接信息,文件的词袋向量表示被构造使用前 3000单词,即跳过HTML头;其次采用TFIDF映射,将特征向量归一成单位长度。 进一步的,本发明的步骤2中,求实例xi的局部密度p(xi),采用无监督学习方法 FCM,并且采用每个实例xi与其近邻之间的归一化距离。 首先,根据无监督学习方法通常可以用来检测分布结构的内在边界,u1i和u1j表示 实例xi分别属于其一集群(类别)的概率,max(u1i,u2i)实际上表示实例xi位于非边缘区域的 概率,max(u1i,u2i)的值越大,实例xi位于非边缘区域的概率越大;根据归一化距离计算,其 中d(xi,xj)表示点xi和它的近邻集中的点xj之间的距离, 表示所有实 例上这种距离的总和,其中点xt是点xs的近邻; 然后,实例xi的局部密度可求得 其中点xj是 点xi的近邻。 进一步的,本发明的步骤3中,在步骤2求得实例xi的局部密度p(xi)后,利用双点平 滑约束 和单点 局部密度 ,改 进 M R中的 第三项 ,框架的 优化问 题可以 表示为 其中C1、C2都是正则化参数,V(xi,yi, f)是损失函数,此损失函数可以是对于支持向量机(SVM)来说的铰链损失max{0 ,1-yif (xi)},或者对于正则化最小二乘分类器(RLSC)来说的平方损失(yi-f(x 2i)) , 是一个光 滑正则化项,它是处于再生核希尔伯特空间(RKHS)的。 进一步的,本发明的步骤4中,利用平方损失 其中f=[f(x T1) ,…,f(xl u)] ,L是通过L=D-W获得 的图拉普拉斯矩阵,W是图G的权重矩阵,D是对角矩阵,它通过 获取得到对角分 5 CN 111581380 A 说 明 书 3/8 页 量;或者铰链损失 制定一个统一的分类目标函数: 其中K:X×X→R是一个Mercer核, 其中α=[α1,...αl u]T是拉格朗日乘子向量。Kl=(Xl,X) ∈Rl×(l u)和K=(X,X) (l u)×(l u)H H∈R 是核矩阵,其中Xl表示已标记数据集,X表示整个数据集,已标记数据的类标签向量用Yl= [y1,...y Tl] 表示;或者 其中βis是拉格朗日乘子, 其中I是维度为l×l的单位矩阵,K为(nl nu)×(nl nu)的核矩阵,Y是给定的(nl nu)维度标签向量,J是一个由第nl个对角线上为1并 且其余的为0的J=diag(1,…,1,0,…,0)给定的(nl nu)×(nl nu)的对角矩阵。 进一步的,本发明的步骤5中,通过5折交叉验证选出最优的正则化参数以及核函 数等,其中正则化参数τ值设为0.5,调节参数τ=0时公式退化为MR,参数C1和C2的取值范围 为{0.01,0.1,1,10,100},核函数选择线性核,近邻数k都被简单地设置为10,已标记文本样 本个数固定为10或100。 进一步的,本发明的步骤6中,使用步骤3、4、5中得到的一种单双点平滑结合的流 形正则化半监督文本分类方法,对步骤1中产生的测试数据进行预测,得到最终的文本预测 标签。 有益效果: 1、本发明提出了一种单双点平滑结合的流形正则化半监督文本分类方法(简称 SDS_MR),是结合实例对约束和单点局部密度,保留了单双点的光滑性,它们都具重要性且 都可做出贡献,从而很好地提升文本分类性能。 2、本发明将其与其他经典分类算法以及相似的文本分类算法在多个数据集上进 行了对比实验,这些数据集包括UCI公开数据集(文本特征数据)和benchmark数据集,实验 表明SDS_MR对比于当下其他先进的半监督分类方法取得了令人鼓舞的结果,能够很好地提 高文本分类的精确度。 附图说明 图1是本发明的方法流程图。 6 CN 111581380 A 说 明 书 4/8 页