logo好方法网

一种基于任务贡献度的语句表示方法


技术摘要:
本发明公开了一种基于任务贡献度的语句表示方法,包括:基于任务贡献度的选词算法,包括信息增益计算方法和任务贡献度因子方法;基于任务贡献度的句向量表示模型IIGSIF方法,包括基于句向量的分类模型方法和文本相似度计算算法。本发明不仅考虑到文本的“词频”信息,  全部
背景技术:
目前,文本表示是指将非结构化的文本信息编码成计算机可计算的形式,通常这 种形式是向量。其中,词向量和语句向量的研究最为热门。利用不同方法计算的词向量是自 然语言处理(NLP)和信息检索(IR)的基本任务。它们捕捉了单词之间的信息关系。2013年, Mikolve等人提出了词向量表示方法Word2Vec模型。该模型利用海量文本中词的上下文信 息将词表示为低维实数向量。Pennington等人针对词向量Word2Vec模型仅考虑局部特征单 词上下文信息的问题,提出全局词-词共现矩阵来提高文本的全局统计信息,得到Glove词 向量模型。Joulin等人将局部词序特征加入神经网络模型中,训练出用于文本分类的 fasttext词向量模型。该模型训练速度极快,并能考虑到未登录词(out  of  vocabulary)。 Peters等人提出的ELMo词向量模型,采用双层Bi-LSTM编码同一单词的不同类型特征。较之 间的词向量模型,该模型考虑了句子的句法和语义信息,能解决一词多义的问题且泛化能 力更强。词向量的发展让人欣喜,然而如何有效地表示一篇由多个词有机组成的文档仍是 当前的难点,但这也加速了语句向量表示的研究发展。各式各样的句向量模型都在文本相 似度比较、文本分类等下游任务取得良好表现。 如何生成可捕获单词序列的语义信息的表示模型,其方法从词向量的简单组合到 诸如卷积神经网络和递归神经网络的复杂体系结构。Socher等人首次利用递归神经网络建 模句子,词向量不断递归组合,可得到短语及整个句子的向量表示。Kiros等人通过训练2个 RNN组成的编码-解码模型得到Skip-thoughts句向量模型,并通过词汇扩展的方法来编码 不在训练集内的单词。Wieting  等人提出了PP(PARAGRAMPHRASE  embeddings)模型,通过将 句子中包含的词的词向量进行算术平均得到句向量,再利用投影的方法优化模型,同时通 过运用PSL词向量来提高模型在各项任务中的性能;有采用TF-IDF  加权的方法形成句向 量,并在文本相似度任务上取得了不错的效果;Arora等提出的SIF(平滑反频率模型, Smooth  Inverse  Frequency)模型借鉴了PP模型的思想,但是选择了加权平均的方法,并用 移除句向量上的第一主成分上的矢量的方法优化模型,该模型在大多基础任务上的表现均 超出以往其他模型的性能。Andreas  等人提出了p-means模型,利用集成学习的思想来提升 句向量的性能。 其中,SIF模型只统计了通用数据集中的词频信息,以此计算单词权重。但在针对 具体的任务时,未考虑到需筛选对任务无贡献度的单词和相应的权重修正,这对捕捉文本 的关键特征有一定的局限性;这也解释了该模型在文本相似度计算这一任务中表现不及有 监督的RNN和LSTM方法的原因。
技术实现要素:
本发明的主要目的在于提供一种基于任务贡献度的语句表示方法,利用改进的信 4 CN 111581984 A 说 明 书 2/13 页 息增益特征选择方法筛选对任务具有更高贡献度的特征单词来优化SIF模型,通过去除对 任务贡献度较低单词来提高SIF  模型在文本分类和文本相似度计算这两个基础任务的性 能。 本发明采用的技术方案是:一种基于任务贡献度的语句表示方法,包括: 基于任务贡献度的选词算法,包括信息增益计算方法和任务贡献度因子方法; 基于任务贡献度的句向量表示模型IIGSIF方法,包括基于句向量的分类模型方法和文 本相似度计算算法。 进一步地,所述信息增益计算方法为: 为类内词频因子,该因子表示特征单词在某类中出现的次数和该类中出现的词的 总数的比值; 特征词 在类别 内的类内词频计算公式如下: 其中, 为类别 内词语的总数量, 表示单词 出现在属于类别 的句子 的次数; 为类内、类间区分度因子; IG(T)为特征单词对任务的贡献度。 更进一步地,所述特征单词对任务的贡献度为: 其中,T为训练语料数据集, 为类型集合, 表示在数据集中一个 句子属于 类的概率, 为数据集中包含单词w的概率, 为未出现单词w时文 本属于 类的概率。 更进一步地,所述任务贡献度因子方法为: TCF(w)=  IIG(T)Weight(w) Weight(w)表示SIF模型中给予特征词的权重,任务贡献度因子TCF(w)表示单词w对分 类任务的重要程度。 更进一步地,所述基于任务贡献度的选词算法包括: 5 CN 111581984 A 说 明 书 3/13 页 根据词向量集合 计算特征单词在不同类别的句子中出现的频率 ; 根据信息增益算法计算任务贡献度因子TCF; 将单词库V依照任务贡献度因子TCF(w)递减的顺序排列,得到V_sorted; 把在单词表V_sorted中出现的特征单词在句子s中删去; 在SIF模型中进行句向量计算,将词向量 加权平均为句向量 。 更进一步地,所述基于句向量的分类模型方法包括: 将数据集划分为训练集和测试集; 将训练集进行文本分词、去除停用词及低频词等预处理工作; 根据处理后的训练集计算任务贡献度因子TCF; 用IIGSIF模型生成句向量; 训练集模型训练分类器; 对测试集做以相同预处理工作; 计算测试集任务贡献度因子TCF; 生成测试集句向量模型; 根据训练分类器结果对测试集分类; 得出测试集最终分类结果。 更进一步地,所述文本相似度计算算法利用IIGSIF句向量模型生成的句向量来刻 画两个句子之间的相似程度,算法步骤包括: 数据预处理,将文本预处理后的文本S1和S2,采用词集合 和 表示; 句向量生成,用IIGSIF句向量生成模型将文本词集合 和 表示为句向量 和 ; 相似度计算,利用以下公式计算和 的相似度,即 ; ; 设定相似度阈值,得出相似性结果。 本发明的优点: 本发明不仅考虑到文本的“词频”信息,还结合了文本的语义和文本的类间类内特征, 筛选出对文本计算任务贡献度较高的文本特征,参与后续的句向量生成的计算过程。最终 得到直观、涵盖信息量全且利于理解的文本表示。在文本分类和文本相似度计算任务中较 对比实验获得较高的分数。 除了上面所描述的目的、特征和优点之外,本发明还有其它的目的、特征和优点。 下面将参照图,对本发明作进一步详细的说明。 附图说明 构成本申请的一部分的附图用来提供对本发明的进一步理解,本发明的示意性实 6 CN 111581984 A 说 明 书 4/13 页 施例及其说明用于解释本发明,并不构成对本发明的不当限定。 图1是本发明实施例的基于任务贡献度的语句表示方法框图; 图2是本发明实施例的基于句向量的分类模型方法流程图。
分享到:
收藏