技术摘要:
本发明涉及一种基于地质文本语料预测目标区矿产的方法。基于地质文本语料预测目标区矿产的方法步骤依次为:首先,对地质文本语料进行预处理获取实义词;然后,依据设定的高频实义词频阈值得出高频实义词;再对高频实义词对开展共现矩阵计算;另外,基于共现矩阵计算结 全部
背景技术:
地质文本语料中的句子可以被分成实义词和语义含糊的功能描述性词。在文本数 据中,实义词是文本关键信息的载体,而一些虚词等没有实际意义。通过选择高频实义词作 为每篇文本的主要实义词,能够简单、清楚的代表地学文本中的主要内容。 实义词表明了文本语料的主要信息,其在本体模型中属于概念,在地学中可分为 地质学、技术方法和描述性词汇等类型:(1)地质学词汇是与地质和矿物资源有关的词汇, 例如断裂、岩浆岩等;(2)技术方法词汇主要是与矿产勘查、数据处理等工作或处理过程有 关的词汇,例如遥感、航磁等;(3)描述性词语是一些与地质主题没有直接关系的功能实义 词,例如研究、分析等。 依据文本语料中的实义词所生成的知识图谱对于矿产预测领域的知识分析与挖 掘的应用具有重要意义。目前缺少通过地质文本语料预测目标区矿产的方法。
技术实现要素:
本发明主要解决的技术问题是提供一种地质文本语料预测目标区矿产的方法。 为解决上述技术问题,本发明公开的方法,包括以下步骤: a.对地质文本语料进行预处理,获得实义词; b.依据设定的高频实义词频阈值得出高频实义词; c.对高频实义词对开展共现矩阵计算; d.基于共现矩阵计算结果生成地质知识谱图; e.基于地质知识图谱圈定目标区的矿产。 进一步的,所述地质文本语料预处理包含对地质文本预料的切分、去标点符号和 去停用词。 进一步的,所述高频实义词阈值范围为10~100。 进一步的,所述地质知识图谱以词节点的大小和边长度的方式进行显示。 进一步的,所述词节点的大小为实义词的词频,所述边长度为实义词在地质语料 中的共现频率。 综上所述,本发明具有以下有益效果: 通过本发明的方法,可以实现基于地质语的知识图谱自动生成及目标区的矿产预 测,满足地质大数据的应用服务的需求,对于大数据时代背景下矿产的预测及发现具有重 要意义。 3 CN 111611404 A 说 明 书 2/3 页 附图说明 附图是用来提供对本发明的进一步理解,并且构成说明书的一部分,与下面的具 体实施方式一起用于解释本发明,但并不构成对本发明的限制。在附图中: 图1是经过词频统计的成矿预测相关实义词示意图。 图2是实义词共现关系示意图。 图3是目标区的共现信息示意图。
本发明涉及一种基于地质文本语料预测目标区矿产的方法。基于地质文本语料预测目标区矿产的方法步骤依次为:首先,对地质文本语料进行预处理获取实义词;然后,依据设定的高频实义词频阈值得出高频实义词;再对高频实义词对开展共现矩阵计算;另外,基于共现矩阵计算结 全部
背景技术:
地质文本语料中的句子可以被分成实义词和语义含糊的功能描述性词。在文本数 据中,实义词是文本关键信息的载体,而一些虚词等没有实际意义。通过选择高频实义词作 为每篇文本的主要实义词,能够简单、清楚的代表地学文本中的主要内容。 实义词表明了文本语料的主要信息,其在本体模型中属于概念,在地学中可分为 地质学、技术方法和描述性词汇等类型:(1)地质学词汇是与地质和矿物资源有关的词汇, 例如断裂、岩浆岩等;(2)技术方法词汇主要是与矿产勘查、数据处理等工作或处理过程有 关的词汇,例如遥感、航磁等;(3)描述性词语是一些与地质主题没有直接关系的功能实义 词,例如研究、分析等。 依据文本语料中的实义词所生成的知识图谱对于矿产预测领域的知识分析与挖 掘的应用具有重要意义。目前缺少通过地质文本语料预测目标区矿产的方法。
技术实现要素:
本发明主要解决的技术问题是提供一种地质文本语料预测目标区矿产的方法。 为解决上述技术问题,本发明公开的方法,包括以下步骤: a.对地质文本语料进行预处理,获得实义词; b.依据设定的高频实义词频阈值得出高频实义词; c.对高频实义词对开展共现矩阵计算; d.基于共现矩阵计算结果生成地质知识谱图; e.基于地质知识图谱圈定目标区的矿产。 进一步的,所述地质文本语料预处理包含对地质文本预料的切分、去标点符号和 去停用词。 进一步的,所述高频实义词阈值范围为10~100。 进一步的,所述地质知识图谱以词节点的大小和边长度的方式进行显示。 进一步的,所述词节点的大小为实义词的词频,所述边长度为实义词在地质语料 中的共现频率。 综上所述,本发明具有以下有益效果: 通过本发明的方法,可以实现基于地质语的知识图谱自动生成及目标区的矿产预 测,满足地质大数据的应用服务的需求,对于大数据时代背景下矿产的预测及发现具有重 要意义。 3 CN 111611404 A 说 明 书 2/3 页 附图说明 附图是用来提供对本发明的进一步理解,并且构成说明书的一部分,与下面的具 体实施方式一起用于解释本发明,但并不构成对本发明的限制。在附图中: 图1是经过词频统计的成矿预测相关实义词示意图。 图2是实义词共现关系示意图。 图3是目标区的共现信息示意图。