
技术摘要:
本发明公开了一种惠企政策文本聚类方法,涉及文本聚类技术领域。本发明首先采集惠企政策文本,再对惠企政策文本进行预处理,并提取特征向量,然后利用引导性正弦余弦算法优化惠企政策文本的聚类中心。在引导性正弦余弦算法中,根据搜索的反馈信息适应性地调整引导性交 全部
背景技术:
为了更好地服务中小企业,加快经济建设,各级各类相关部门都出台了诸多的惠 企政策。这些惠企政策包括免税政策、减税政策、贴息支持政策、增产增效奖励政策等。然而 随着各种各样惠企政策的相继出台,众多的中小企业时常会难以找到符合自身情况的惠企 政策。如何为中小企业做好惠企政策的解读是一项很有挑战性的工作。为此,研究人员尝试 利用人工智能技术根据中小企业的自身特点为其推荐符合发展需求的惠企政策。 为了更好地帮助中小企业推荐合适的惠企政策,需要对惠企政策文本进行类簇划 分。利用人工对诸多的惠企政策文本进行类簇划分往往需要耗费大量的人力。为此,研究人 员提出利用文本聚类技术对惠企政策文本进行类簇划分。然而传统的文本聚类技术应用于 惠企政策文本的聚类时容易出现聚类精度不高的缺点。
技术实现要素:
本发明提供一种惠企政策文本聚类方法,它在一定程度上克服了传统的文本聚类 技术应用于惠企政策文本的聚类时容易出现聚类精度不高的缺点,本发明能够提高惠企政 策文本聚类的精度。 本发明的技术方案:一种惠企政策文本聚类方法,包括以下步骤: 步骤1,采集惠企政策文本; 步骤2,对惠企政策文本进行预处理; 步骤3,提取惠企政策文本的特征向量; 步骤4,将得到的惠企政策文本的特征向量设置为惠企政策文本数据集; 步骤5,利用引导性正弦余弦算法优化惠企政策文本数据集的聚类中心; 步骤6,利用得到的聚类中心对惠企政策文本数据集进行类簇划分,即得到惠企政 策文本的聚类结果; 其中,步骤5所述的利用引导性正弦余弦算法优化惠企政策文本数据集的聚类中 心,包括以下步骤: 步骤5.1,设置智能体数量PSZ,并设置最大迭代次数MaxIT; 步骤5.2,设置当前迭代次数CIt=0; 步骤5.3,设置惠企政策文本类簇数量CCN; 步骤5.4,随机生成PSZ个智能体ACi,其中每个智能体都存储了CCN个聚类中心,智 能体下标i=1,2,…,PSZ; 步骤5.5,将生成的PSZ个智能体组成种群; 步骤5.6,按公式(1)计算种群中PSZ个智能体的适应值: 4 CN 111581384 A 说 明 书 2/5 页 其中afvi表示第i个执行智能体的适应值;si为样本下标;类簇下标ci=1,2,…, CCN;CXsi表示惠企政策文本数据集中的第si个样本;DCci表示第ci个类簇;ACi,ci表示第i智 能体所存储的第ci个聚类中心; 步骤5.7,在种群的PSZ个智能体中找出适应值最小的智能体,并将找到的适应值 最小的智能体保存到最优智能体gBA; 步骤5.8,初始化留存交叉率KCRi=0.5; 步骤5.9,生成PSZ个引导性智能体DIAi,生成方法为设置DIAi=ACi,其中智能体下 标i=1,2,…,PSZ; 步骤5.10,设置暂存智能体TIAi=DIAi,其中智能体下标i=1,2,…,PSZ; 步骤5.11,设置计数器tsi=1; 步骤5.12,在[1,PSZ]范围内随机产生一个正整数ei;然后设置第ei个暂存智能体 TIAei=gBA; 步骤5.13,设置计数器tsi=tsi 1; 步骤5.14,如果计数器tsi小于PSZ×0.1,则转到步骤5.12,否则转到步骤5.15; 步骤5.15,按公式(2)计算引导性交叉率DCRi: 其中rand表示随机实数产生函数,tep为[0,1]之间的随机实数; 步骤5.16,按公式(3)计算前景智能体NIAi: 其中rid为[1,PSZ]之间的随机正整数;atp为[0,1]之间的随机实数;trp为[0,1] 之间的随机实数; 步骤5.17,如果前景智能体NIAi的适应值小于引导性智能体DIAi的适应值,则设置 引导性智能体DIAi=NIAi,否则保持引导性智能体DIAi不变; 步骤5.18,按公式(4)执行引导性正弦余弦操作算子: 其中 r2为[0,2×π]之间的随机实数,并且π为圆周率;r3为[0, 2]之间的随机实数;r4为[0,1]之间的随机实数;sin为正弦函数;cos为余弦函数;GXi为采 样智能体; 步骤5.19,如果采样智能体GXi的适应值比ACi的适应值更小,则设置ACi=GXi,否 则保持ACi不变; 5 CN 111581384 A 说 明 书 3/5 页 步骤5.20,如果采样智能体GXi的适应值比ACi的适应值更小,则设置留存交叉率 KCRi=DCRi,否则保持留存交叉率KCRi不变; 步骤5.21,找出种群中适应值最小的智能体保存到最优智能体gBA; 步骤5.22,设置当前迭代次数CIt=CIt 1;如果当前迭代次数CIt小于最大迭代次 数MaxIT,则转到步骤5.10,否则转到步骤5.23; 步骤5.23,提取出最优智能体gBA中所存储的聚类中心,即得到惠企政策文本数据 集的聚类中心。 本发明利用引导性正弦余弦算法来优化惠企政策文本的聚类中心,并利用得到的 聚类中心对惠企政策文本进行类簇划分,实现惠企政策文本的聚类。在引导性正弦余弦算 法中,设计了引导性交叉率的适应性调整机制,利用引导性交叉率来生成引导性信息,提升 正弦余弦算法的性能,从而提高惠企政策文本的聚类精度。 附图说明 图1是本发明中引导性正弦余弦算法的流程图。