logo好方法网

用户零参与的科技文本分析报告自动构建系统及方法


技术摘要:
本发明公开了一种用户零参与的科技文本分析报告自动构建系统及方法,系统包括用于对待分析科技文本进行结构重组的字段映射器、用于存储分析结果的二进制数据结构以及对应的二进制分析结果存储文件、数据解读器、图形绘制器、报告结构组织器和报告撰写器。利用本发明,  全部
背景技术:
科学技术迅猛发展、科研难度日趋加大、学科间渗透交叉、研究  者之间协作竞争、 文本格式的科技文本资源(如科研论文、专利、科  技报告等)呈爆炸式增长,这些对于科技 数据分析人员提出了新的挑  战,即在日新月异的海量科技文本资源中如何迅速提取有价 值的科技  信息并尽快做出反应。随着信息技术的飞速发展,一些科技资源提供  服务商提 供了软件工具对其科技文本进行分析利用,这些软件工具常  常将分析结果全部或部分呈 现给用户,构建一个分析报告,便于用户 快速的了解科技文本所蕴含的深层次信息。 这些分析报告的构建方式有两大类: 一是用户主动式。科技资源服务商提供科技文本数据和配套的软  件工具,这些软 件工具提供固定的分析方法,用户选择某个分析方法  和数据后,形成一个分析结果,再由 若干分析结果构成一个分析报告。 二是用户被动式。科技资源服务商提供科技文本数据和配套的软  件工具,软件工 具基于固定模板构建统计表格和统计图形,配合简单 的文字说明表格和图形中的数据是 什么,一次性将其能够提供的分析 内容呈现给用户。 其中,上述方式一构建的分析报告的缺点在于,用户需要不断地  与科技资源服务 商提供的软件工具进行交互操作,用户需要对服务商 的软件工具较为熟悉,并耗费一定的 学习时间和软件工具操作时间。 上述方式二构建的分析报告的缺点则在于,每个统计表格和图形  缺少深入的文 字解读,仅仅是对统计表格和统计图形内容是什么进行  说明,没有深入解读,特别是一些 复杂的分析图形,如机构之间的合  作关系图、技术主题之间的关联关系图等,往往只是包 含图形的展示  和图形的标题。 以上两种方式构建的分析报告都需要用户进行二次解读、撰写文  字表述和对报 告进行组织排版,费时、费力,且深入程度不足。
技术实现要素:
针对现有技术的不足,本发明旨在提供一种用户零参与的科技文  本分析报告自 动构建系统及方法,用户使用科技文本服务商的数据,  不需要与分析软件进行交互,不需 要进行与分析软件相关的操作,即 可获取经过解读的科技文本分析报告。 为了实现上述目的,本发明采用如下技术方案: 本发明提供一种用户零参与的科技文本分析报告自动构建系统,  包括用于对待 分析科技文本进行结构重组的字段映射器、用于存储  分析结果的二进制数据结构以及对 应的二进制分析结果存储文件、 数据解读器、图形绘制器、报告结构组织器和报告撰写器; 6 CN 111581928 A 说 明 书 2/10 页 用于对待分析科技文本进行结构重组的字段映射器:所述字段映  射器对待分析 科技文本按照序号、作者、机构、国家、省份、时间、  类别1、类别2、出版物、资助项目、关键 词、题目、摘要、全文这  11个维度进行重组; 用于存储分析结果的二进制数据结构以及对应的二进制分析结  果存储文件;所 述用于存储分析结果的二进制数据结构包括: 11个字段数据结构:用于存储作者、机构、国家、省份、时间、  类别1、类别2、出版 物、资助项目、关键词、主题词对应的科技文  本数量,这11个字段定义为基本维度;所述11 个字段数据结构存储 的内容定义为一维统计结果; 11*11个数据表结构:用于存储11个基本维度两两组合后的科  技文本数量,11*11 个数据表结构存储的内容定义为二维统计结果; 8个图形数据结构:每个图形数据结构由节点和连线构成,分别  用于存储作者、机 构、国家、省份、类别1、类别2、关键词、主题  词8个维度的共现网络图;每个维度的共现网络 图G(V,E)中,节  点集合V存储的是对应维度的内容集合,E存储的是各个维度内容在 同一 个科技文本中出现的次数,作为图形连线; 数据解读器:所述数据解读器用于读入分析结果并对分析结果进  行自动解读,然 后输出一段文字描述; 一维统计结果为表格类份额数据,数据解读器对于表格类份额数  据按照数量和 占比进行解读,对于数量和占比排序前N位的数据输出  文字描述; 带有时间维度的二维统计结果为表格类趋势数据,数据解读器对  于表格类趋势 数据具体按照数据的整体趋势、最大值、最小值、增值 率进行解读并输出文字描述; 数据解读器对于共现网络图按照关系的强弱进行解读并输出文  字描述; 图形绘制器:所述图形绘制器用于读入分析结果并绘制图形; 对于表格类份额数据,采用柱形图进行图形绘制; 对于表格类趋势数据,采用折线图进行图形绘制; 对于共现网络图,采用带文字的球形节点和粗细的连线进行绘制; 报告结构组织器:所述报告结构组织器用于对输出的分析报告的  内容和结构进 行限定和组织;报告结构组织器定义有描述符,所述描  述符用于对分析报告的内容和结构 进行组织,对报告中需要连接的二  进制数据结构; 报告撰写器:报告撰写器用于按照报告结构组织器的描述符对分  析报告进行撰 写,遇到对应的描述符,调取所需的二进制数据结构数  据,按照描述符的描述进行输出。 进一步地,上述系统中,主题词是从科技文本的题目、摘要、正  文中进行计算机分 词的词组。 进一步地,上述系统中,数据解读器对于表格类份额数据的解读  所输出文字描述 为“排序前N位的{0}分别为{1}{2}{3}{4}{5},其数  据量分别为{6}{7}{8}{9}{10},数量占 比分别为  {11}{12}{13}{14}{15}”,其中{0}为基本维度中任意一个,{1}-{5}  为对应的科 技文本数量,{6}-{10}为对应的科技文本数量占比。 进一步地,上述系统中,数据解读器对于表格类趋势数据的解读  所输出文字描述 为“整体趋势递增/递减/趋势不明显,XXXX年达到  最多,数量为X,XXXX年为最少,为X,增长 较为显著的年份包括XXXX、  YYYY、ZZZZ”;其中,整体趋势的判断通过计算不同时间段的斜 7 CN 111581928 A 说 明 书 3/10 页 率进  行判断,如果斜率为正的情况多于斜率为负数的情况,则为整体趋势  递增,反之则为 整体趋势递减,如果相等,则为整体趋势不明显;最  大值和最小值的判断通过两两数值比 较;增长较为显著的年份通过增  长率排序,增长率为正且排序前三的年份为增长较为显著 的年份。 进一步地,上述系统中,数据解读器对共现网络图的解读所输出  文字描述为“{0} 主要分为以下几组:X1、X2、X3…;Y1、Y2、Y3…;Z1、  Z2、Z3…,关系较强的分组是第i、j、k… 组”;其中{0}为作者、机  构、国家、省份、类别1、类别2、关键词、主题词8个维度,分组 的判 断采用Kmeans聚类将节点划分分组,关系大于关系中位数的分 组为关系较强的分组。 进一步地,上述系统中,描述符分为7个类别,具体包括: 1)参数描述符,基本格式为: param|id=;data=;where=;type=; 指明分析报告应该在此输出参数,包括编号,二进制数据结构数  据、字段和类型; 2)段落描述符,基本格式为: paragraph|level=;linesbefore=;linespace=;charactersbefo  re=; fontsize=;fontfamily=;italic=;bold=;align=;content=; 指明分析报告应该在此输出一段文字,包括由content决定的段  落文字内容及其 在大纲级别、段前、断后、行间距、字体、字号、斜  体、粗体、对齐上的格式设置; 3)表格描述符,基本格式为: tablestatic|name=;row=;column=;style=;data=; 指明分析报告应在此输出一个表格,包括表格名称、行数、列数、  样式、二进制数 据结构数据; 4)动态图形描述符,基本格式为: figuredynamic|name=;data=;param=; 指明分析报告应在此输出一个非网络的图形,包括图形名称、对  应的二进制数据 结构数据、临时存储路径、参数; 5)网络图描述符,基本格式为: figurememory|name=;func=;params=;save=; 指明分析报告应在此输出一个共现网络图,包括名称、步骤S4  中的数据解读器、 绘制使用的参数、临时存储的路径; 6)横向纵向排版描述符,基本格式为: segmentpage|orientation=; 指明分析报告在当前页面排版的纸张方向; 7)目录描述符,基本格式为: content|type=; 指明分析报告应在此输出一个目录,目录的类型是全文目录、图  目录和/或表目 录。 本发明还提供一种利用上述系统进行科技文本分析报告自动构  建的方法,包括 如下步骤: S1、用户在科技文本数据库中进行检索,将检索得到的对待分析  科技文本输入用 8 CN 111581928 A 说 明 书 4/10 页 户零参与的科技文本分析报告自动构建系统中; S2、字段映射器对待分析科技文本进行结构重组: 字段映射器待分析的科技文本按照序号、作者、机构、国家、省  份、时间、类别1、类 别2、出版物、资助项目、关键词、题目、摘  要、全文进行重组; S3、按照二进制数据结构中的字段数据结构统计结构重组后的待  分析科技文本 中,作者、机构、国家、省份、时间、类别1、类别2、  出版物、资助项目、关键词、主题词11个基 本维度对应的科技文本 数量得到一维统计结果; 按照二进制数据结构中的字段数据结构统计结构重组后的待分  析科技文本中, 作者、机构、国家、省份、时间、类别1、类别2、  出版物、资助项目、关键词、主题词11个基本维 度两两组合后的科 技文本数量,得到二维统计结果; 按照二进制数据结构中的图形数据结构统计结构重组后的待分  析科技文本中作 者、机构、国家、省份、类别1、类别2、关键词、  主题词8个维度的共现网络图; 一维统计结果、二维统计结果和共现网络图存入二进制分析结果  存储文件中; S4、图形绘制器读入步骤S3得到的一维统计结果、二维统计结  果和共现网络图并 绘制图形,其中: 所述一维统计结果为表格类份额数据,对于表格类份额数据的图  形,采用柱形图 进行绘制并存储到临时目录; 带有时间维度的二维统计结果为表格类趋势数据,对于表格类趋  势数据的图形, 采用折线图绘制并存储到临时目录; 对于共现网络图G(V、E)的图形,采用带文字的球形节点和粗  细的连线进行绘制 并存储到临时目录; 另外,数据解读器读入步骤S3中得到的一维统计结果、二维统  计结果和共现网络 图并进行自动解读,然后输出一段文字描述; 一维统计结果为表格类份额数据,数据解读器对于表格类份额数  据按照数量和 占比进行解读,对于数量和占比排序前N位的数据输出  文字描述; 带有时间维度的二维统计结果为表格类趋势数据,数据解读器对  于表格类趋势 数据,按照数据的整体趋势、最大值、最小值、增值率  进行解读并输出文字描述; 数据解读器对于共现网络图,按照关系的强弱进行解读并输出文  字描述; S5、报告结构组织器对输出的分析报告的内容和结构进行限定和  组织,其中,报 告结构组织器中定义的描述符对分析报告的内容和结  构进行组织; 报告撰写器按照报告结构组织器的描述符对分析报告进行撰写,  遇到对应的描 述符,调取相应的二进制数据结构数据,按照描述符的  描述进行输出,最终生成所需的科 技文本分析报告。 进一步地,上述方法的步骤S4中,数据解读器的解读过程如下: 一维统计结果为表格类份额数据,对于表格类份额数据的解读按  照数量和占比 进行解读,对于排序前N位的数据输出文字描述“排序  前N位的{0}分别为{1}{2}{3}{4} {5},其数据量分别为  {6}{7}{8}{9}{10} ,数量占比分别为{11}{12}{13}{14}{15}”,其中 {0}  为基本维度中任意一个,{1}-{5}为对应的科技文本数量,{6}-{10}  为对应的科技文 本数量占比; 9 CN 111581928 A 说 明 书 5/10 页 带有时间维度的二维统计结果为表格类趋势数据,对于表格类趋  势数据,数据解 读器按照数据的整体趋势、最大值、最小值、增值率  进行解读,输出文字描述为“整体趋势 递增/递减/趋势不明显,XXXX  年达到最多,数量为X,XXXX年为最少,为X,增长较为显著的 年份  包括XXXX、YYYY、ZZZZ”;其中,整体趋势的判断通过计算不同时间  段的斜率进行判 断,如果斜率为正的情况多于斜率为负数的情况,则  为整体趋势递增,反之则为整体趋势 递减,如果相等,则为整体趋势  不明显;最大值和最小值的判断通过两两数值比较;增长较 为显著的 年份通过增长率排序,增长率为正且排序前三的年份为增长较为显著 的年份; 共现网络图的解读输出文字描述为“{0}主要分为以下几组:X1、  X2、X3…;Y1、Y2、 Y3…;Z1、Z2、Z3…,关系较强的分组是第i、j、  k…组”;其中{0}为作者、机构、国家、省份、类 别1、类别2、关键  词、主题词8个维度,分组的判断采用Kmeans聚类将节点划分分组,  关系 大于关系中位数的分组为关系较强的分组。 进一步地,上述方法的步骤S5中,所述报告结构组织器中: 参数描述符指明分析报告应该在此输出参数,包括编号、二进制  数据结构数据、 字段和类型; 段落描述符指明分析报告应该在此输出一段文字,包括段落文字  内容及其在大 纲级别、段前、断后、行间距、字体、字号、斜体、粗  体、对齐上的格式设置; 表格描述符指明分析报告应在此输出一个表格,包括表格名称、  行数、列数、样 式、二进制数据结构数据; 动态图形描述符指明分析报告应在此输出一个非网络的图形,包  括图形名称、二 进制数据结构中的数据、临时存储路径、参数; 网络图描述符指明分析报告应在此输出一个共现网络图,包括名  称、数据解读 器、绘制使用的参数、临时存储的路径; 横向纵向排版描述符指明分析报告在当前页面排版的纸张方向; 目录描述符指明分析报告应在此输出一个目录,目录的类型是全  文目录、图目录 和表目录。 附图说明 图1为本发明实施例2的流程示意图。
分享到:
收藏