logo好方法网

文本信息转化方法、系统、存储介质、计算机程序、终端


技术摘要:
本发明属于信息处理技术领域,公开了一种文本信息转化方法、系统、存储介质、计算机程序、终端,使用哈工大NLP平台对中文文本分词处理;名词按照句子,分为一组,当其中一个名词出现在句子汇总时,另一个名词也同时出现在此句中的概率,得到的名词两两关联性的数据;依  全部
背景技术:
目前,市面上的很少有系统能将普通文本转化为图片表示。大部分系统往往单纯 利用一段话的某些关键字,来搜索图片,实现该文本的简单附图。而真正利用现有文本,智 能转化文本为图片,存在诸多瓶颈。比如一段文本中如何找到关键字,关键字找到后如何确 定它们的优先性,同时在搜索图片中如何保证准确性,以及附图时的图片拼接如何把控个 数和位置坐标。 这些瓶颈主要来源于机器对自然语言的理解问题,机器无法从语境中感知文本的 表达内容,只能通过机械的文本分析,自然语言处理等方式,来获得文本的局部信息,但无 法分清其主次,从而无法进行有价值的信息和图片的拼凑。 通过上述分析,现有技术存在的问题及缺陷为:传统的人工寻找文本的附图,存在 了重复工作并且不具有实时性。 传统人工搜图附图方式,存在了重复性工作,可能以前他人已经做过相同文本的 附图,导致人力资源的浪费,同时不同人搜索出的附图带有主观性,多次重复对相同文本附 图,无法判别个体孰优孰劣。 同时在应用上,传统的人工附图无法提供实时性的服务,具有延后性,因此在许多 领域就会有所限制,比如实时的为阅读障碍患者提供附图帮助其理解文本,这终究需要突 破传统,从技术上拓宽其应用的领域。 解决以上问题及缺陷的难度为:以上问题主要在于找出可图片化的多个关键字, 并根据文本的信息,对关键字的图片信息进行合理的布局。而布局的主次依靠名词的重要 性排序。文本图片化的难点就在于找到图片化的关键字、分词关键字的主次以及如何布局 关键字生成的图片。 解决以上问题及缺陷的意义为:本发明旨在创建一个系统,能实时的生成文本图 片化后的内容,使得文本有合理附图。此技术可以应用的多个领域,一个重要的应用是人读 写能力的发展,对于学习阅读的儿童和第二语言学习者,将图片与文字一起看可能会增强 学习效果,另一个应用是作为学习障碍者或脑损伤者的阅读辅助。
技术实现要素:
针对现有技术存在的问题,本发明提供了一种文本信息转化方法、系统、存储介 质、计算机程序、终端。 本发明是这样实现的,一种文本信息转化方法,所述文本信息转化方法包括:图片 化前的准备,因为发明以名词为主要信息来图片化文本,所以在建立系统前,能获得名词的 重要性至关重要,这样图片化的过程中,系统得到文本所提取出的名词,会优先图片搜索重 4 CN 111581977 A 说 明 书 2/6 页 要性数值大的名词。获得名词重要性的过程为。 所述文本信息转化方法包括: 第一步,获得文本内容,使用哈工大NLP平台对中文文本分词处理和词性标注;对 中文文本分词处理,即使用哈工大LTP组件,把文本以句子为单位,分词后提取出名词; 第二步,名词按照句子,分为一组,当其中一个名词出现在句子汇总时,另一个名 词也同时出现在此句中的概率,得到的名词两两关联性的数据; 第三步,类比互联网中的网页链接关系看作有向图,对网页的重要性进行排序的 思想,获得名词的重要性排序; 第四步,根据文本搜索得到的图片,依照文本中的名词位置和重要性的关系,拼凑 出接近文本内容的附图。 进一步,所述第一步利用哈工大LTP对收集的大量文本进行分词处理,标注每个模 块的词性。 进一步,所述词性包括:中文文本的分词、词性标注、语义分析。 进一步,所述第二步名词的两两关联性当一个名词出现在句中,另一个名词也同 时存在句中的可能性; 得到名词两两关联性;利用二维List,把名词按句子分入一组,两个名词在一组 中,则代表两个名词具有关联性;关联性的含义为,当其中一个名词出现在句子中,另一个 名词也同时出现在此句中的概率; 计算公式,存在名词A和名词B,则A与B的关联性为: appear(A,B)/sqrt(p(A)*p(B)); 其中,appear(A,B)代表名词A与名词B出现在同一句子的频数,p(A)、p(B)代表名 词A和名词B分别在总句数中出现的频数,sqrt为开平方运算。 进一步,所述第二步利用PageRank思想把互联网中的网页看成有向图,其中网页 是结点,如果网页A链接到网页B,则存在一条有向边A->B,最终通过有向图来得到网页排 序,入链多的一般网页等级越高;把名词当做结点,如果名词A与名词B在一个句子中,相当 于A->B且B->A,构成一个无向图,通过无向图的出入链,参考网页排序思想,得到名词的重 要性; 利用PageRank思想提前获得名词重要性,生成字典库;在图片化过程中,依照名词 关键性字典,优先图片化重要性高的字词,最终拼凑出附图; 所述第三步依照重要性由大到小的顺序,分别获得相应的图片,保存到本地,获得 各名词重要性后,拥有了一个字典库,每次获得需要图片化的文本后,提取名词,根据字典 库,找到优先图片化的名词,进行拼接,设计实际操作中,名词的图片化过程。 本发明的另一目的在于提供一种接收用户输入程序存储介质,所存储的计算机程 序使电子设备执行权利要求任意一项所述包括下列步骤: 第一步,使用哈工大NLP平台对中文文本分词处理; 第二步,名词按照句子,分为一组,当其中一个名词出现在句子汇总时,另一个名 词也同时出现在此句中的概率,得到的名词两两关联性的数据; 第三步,类比互联网中的网页链接关系看作有向图,对网页的重要性进行排序的 思想,获得名词的重要性排序; 5 CN 111581977 A 说 明 书 3/6 页 第四步,根据搜索得到的图片,依照文本中的名词位置和重要性的关系,拼凑出接 近文本内容的附图。 本发明的另一目的在于提供一种存储在计算机可读介质上的计算机程序产品,包 括计算机可读程序,供于电子装置上执行时,提供用户输入接口以实施所述的文本信息转 化方法。 本发明的另一目的在于提供一种实施所述的文本信息转化方法的文本信息转化 系统,所述文本信息转化系统包括: 名词关联模块,用于名词按照句子,分为一组,一组内的名词,具有关联性,即当其 中一个名词出现在句子汇总时,另一个名词也同时出现在此句中的概率,把得到的名词两 两关联性的数据; 名词重要性排序模块,用于实现互联网中的网页链接关系看作有向图,对网页的 重要性进行排序,获得名词的重要性排序; 文本内容附图拼凑模块,用于根据搜索得到的图片,依照文本中的名词位置和重 要性的关系,拼凑出接近文本内容的附图。 本发明的另一目的在于提供一种终端,所述终端搭载所述的文本信息转化系统。 结合上述的所有技术方案,本发明所具备的优点及积极效果为:本发明采用自然 语言处理的技术获得文本的词性,以“可图片化”的性质出发,来主要关注文本中的名词之 间的关系以及主次。基于PageRank思想来获取名词之间的重要性排序,将重要性相对较高 的名词进行图片化,以及根据重要性,把最关键的名词所对应的图片放在中心位置,其他图 片化属性附在其周围,最终得到相对合理的图片化结果。 本发明解决了传统的人工寻找文本的附图,存在重复工作并且不具有实时性等问 题。本发明实现了对任意文本的实时图片化,对图片的准确性和切题性有一定的保证,并且 可以对最终的附图进行调整,进行逻辑上的位置固定,相同或者类似的文本避免了重复搜 索。 本发明为文本的图片化,首先要应用的是自然语言处理技术,对中文文本的分词、 词性标注、语义分析等;使用哈工大NLP平台,它能快速、可靠地分析中文文本。而图片化文 本,更关注的是名词,通过哈工大NLP能提取出文本中的名词,便于文本的图片化转化。 本发明的PageRank思想是一种网页排序方法把互联网中的网页链接关系看作有 向图,可以对网页的重要性进行排序,名词也可进行重要性排序,名词之间的关系可看成无 向图,引入α参数来取消单个名词孤立句子中与其他名词无关联性的问题,同时也能正确处 理没有出链结点的名词,使得任意结点具有强连通性;使用类似PageRank的思想,得到名词 的重要性排序,重要的名词优先图片化。 本发明使用的自动生成图片的新型文本到图片的合成系统,旨在传达一般自然文 本的内容;为日常阅读提供合理附图,丰富人机交流的方式,同时在智慧教育和医疗保健领 域会有一定的应用前景,比如帮助阅读困难人群(老人或年幼儿童)更好的理解文本。同时 可应用到许多场景中,可应用于教育中为文本附图帮助学生理解意思,也可应用医疗保健 领域促进认知困难人群的健康恢复。 6 CN 111581977 A 说 明 书 4/6 页 附图说明 为了更清楚地说明本申请实施例的技术方案,下面将对本申请实施例中所需要使 用的附图做简单的介绍,显而易见地,下面所描述的附图仅仅是本申请的一些实施例,对于 本领域普通技术人员来讲,在不付出创造性劳动的前提下还可以根据这些附图获得其他的 附图。 图1是本发明实施例提供的文本信息转化方法流程图。 图2是本发明实施例提供的文本信息转化系统的结构示意图; 图中:1、名词关联模块;2、名词重要性排序模块;3、文本内容附图拼凑模块。 图3是本发明实施例提供的名词重要性创建过程示意图。 图4是本发明实施例提供的名词重要性的键值获得过程示意图(因所用文章篇幅 短小,所以得到名词的关联性相对不准确,甚至其中关联度为1的不在少数。只要实验扩大 分析文章的量,那么关联度将更精确,很少存在数值1)。 图中:从左往右分别是1、原文本;2、分词后;3、提取名词;4、名词两两关联性权值; 5、单个名词重要性键值 图5是本发明实施例提供的文本信息转化方法实现流程图。 图6是本发明实施例提供的简单输入后的图片化结果示意图。 图7是本发明实施例提供的改变输入后的结果对比示意图。 图8是本发明实施例提供的其他文字输入后的图片化结果示意图。 图9是本发明实施例提供的预计优化后的图片化结果示意图。
分享到:
收藏