logo好方法网

一种基于金字塔层级网络的嵌套实体检测方法


技术摘要:
本发明公开了一种基于金字塔层级网络的嵌套实体检测方法,属于自然语言处理技术领域。该嵌套实体检测方法包括:(一)对单词进行编码获得词向量,将词向量作为仅包含单个单词的文本区域的表示输入第一个解码层;(二)当前解码层对输入的每个文本区域的表示进行命名实体识  全部
背景技术:
命名实体识别是信息抽取中的重要任务。给定文本作为输入,命名实体识别的目 的是识别出输入文本中对应类别的命名实体。例如给定输入“Former  U .N .Ambassador  Jeane  Kirkpatrick”,我们需要识别出“Jeane  Kirkpatrick”是一个人物命名实体。 传统的方法通常将命名实体识别视为一个序列标注问题,即给定输入文本,对文 本中的每一个词打上一个特定的标签,然后根据合并词级别的标签来最终得到命名实体。 这类方法通常假定每一个词至多只属于一个命名实体。然而,嵌套命名实体在自然语言中 分布十分广泛,对于上述例子“Former  U.N.Ambassador  Jeane  Kirkpatrick”,其中“U.N.” 为组织命名实体,“Ambassador”为角色命名实体,“Jeane”为姓命名实体,“Kirkpatrick”为 名命名实体,“U.N.Ambassador”为角色命名实体,“Former  U.N.Ambassador”为角色命名实 体,“Jeane  Kirkpatrick”为人物命名实体,“Former  U .N .Ambassador  Jeane  Kirkpatrick”整个短语为人物命名实体。这些命名实体存在大量的嵌套关系,这类嵌套结 构通常揭示了命名实体之间的特殊关系,因此忽视这类的嵌套命名实体会对许多下游任务 (如关系抽取、事件抽取等)产生重大的影响。
技术实现要素:
为克服现有的命名实体提及检测方法无法解决嵌套命名实体提及识别的不足,本 发明提供了一种基于金字塔层级网络的命名实体识别方法。对于存在嵌套关系的两个不同 的命名实体,嵌套的命名实体长度一定大于被嵌套的命名实体长度,否则无法构成嵌套关 系。因此在本发明中,嵌套的命名实体根据命名实体的长度被分离到不同的解码层进行解 码,先识别长度较短的命名实体,再识别较长的命名实体,从而解决嵌套命名实体识别的问 题。本发明所采用的技术方案如下:一种基于金字塔层级网络的嵌套实体检测方法,所述金 字塔层级网络依次由一个编码层与若干个解码层首尾连接组成;所述编码层由词嵌入层和 第一长短记忆神经网络LSTM1,所述词嵌入层的输出端与第一长短记忆神经网络LSTM1的输 入端连接;所述解码层包括:第二长短记忆神经网络LSTM2、卷积神经网络、全连接神经网 络,所述第二长短记忆神经网络LSTM2的输出端与卷积神经网络的输入端连接,卷积神经网 络的输出端与全连接神经网络的输入端连接。所述嵌套实体检测方法包括以下步骤: (1)将文本输入到金字塔层级网络,通过编码层,对输入文本中的单词编码为词向 量; (2)将编码后的词向量作为仅包含单个词的文本区域的表示,并将所述文本区域 的表示输入到第一个解码层; (3)对于输入的文本区域的表示,使用当前解码层的命名实体识别器检测每个文 5 CN 111581957 A 说 明 书 2/8 页 本区域是否为命名实体,若是则输出该文本区域对应的命名实体类型;若不是,则输出该文 本区域对应的命名实体类型为空类型; (4)对于经过当前解码层的命名实体识别器的文本区域的表示,使用当前解码层 的卷积神经网络将相邻的文本区域的表示融合为新的文本区域的表示; (5)将融合后的新的文本区域的表示输入到下一解码层; (6)重复步骤(3)-(5),直到重复次数达到与预设的解码层数相同或重复次数达到 与输入文本的长度相同。 (7)将每次获得的命名实体类型与正确的命名实体类型进行比较,计算损失值,并 通过优化方法最小化该损失值,最终获得训练好的用于命名实体识别的金字塔层级网络。 (8)获取待检测文本,将待检测文本输入训练好的用于命名实体识别的金字塔层 级网络,获得命名实体识别结果。 进一步地,步骤(1)包括以下子步骤: (1.1)输入文本包含单词x1,x2,…,xi,…,xT,将文本输入到金字塔层及网络,通过 词嵌入层先被映射到一个稠密的词向量 其中 是词xi的词向量,T是所 述文本包含单词的数量; (1.2)通过第一长短时记忆神经网络层LSTM1来获得编码后的词向量: 其中,hi表示文本中第i个词的上下文相关表示, 表示从左到右的LSTM1上下文相 关表示, 表示从右到左的LSTM1上下文相关表示,[;]表示两个向量的连接。 进一步地,步骤(3)包括以下子步骤: (3.1)通过层标准化处理输入文本区域的表示,将处理前的文本区域的表示记为 x′i,处理后的文本区域的表示记为x″i; (3.2)通过第二长短时记忆神经网络层LSTM2来获取上下文相关的文本区域的表 示: 其中,h′i表示第i个文本区域的上下文相关表示, 表示从左到右的LSTM2上下文 相关表示, 表示从右到左的上下文相关表示,[;]表示两个向量的连接。若当前为第n层解 码层,则h′i实际表示从第i个单词开始到第i n-1个单词结束的文本区域; (3.3)将h′i送入全连接神经网络,该全连接神经网络计算每个文本区域是某一特 定类别命名实体的打分logitsi,其中包括有一个空类别表示该文本区域不是任何一个命 名实体; 6 CN 111581957 A 说 明 书 3/8 页 logitsi=Linear(h′i) 其中Linear表示一个全连接神经网络; (3.4)使用软最大化函数来对各个类别上的打分进行归一化,从而获得每个文本 实体是某一特定命名实体类型的概率值: 其中xi,…,i n-1表示从第i个单词开始到第i n-1个单词结束的文本区域,C表示命名 实体类型的集合,|C|表示命名实体类型集合所包含命名实体类型的数量,cj为一个命名实 体类型满足cj∈C,e为自然对数函数的底数; (3.5)选择概率值最高的命名实体类型作为输出的文本区域所对应的命名实体类 型;其中包括用空类别表示该文本区域不是任何一个命名实体。 进一步地,步骤(4)中相邻的文本区域的表示满足以下条件: (1)两个文本区域的表示所对应的文本区域分别起始于第i1和i2个单词,结束于第 j1和j2个单词; (2)i1 1=i2; (3)j1 1=j2。 进一步地,步骤(4)中融合为新的文本区域的表示,满足以下条件: (1)输入的两个文本区域的表示所对应的文本区域分别起始于第i1和i2个单词,结 束于第j1和j2个单词; (2)融合的文本区域的表示所对应的文本区域起始于第i1个单词,结束于第j2个单 词。 进一步地,步骤(4)中所述的卷积神经网络的窗口大小为2,通过以下步骤融合两 个相邻文本区域的表示: x′i=CNNw=2(h′i,h′i 1) 其中CNNw=2为窗口大小为2的卷积神经网络; 若当前为第n层解码层,融合前的两个相邻文本区域的表示所对应的文本区域分 别起始于第i和i 1个单词,结束于第i n-1和i n个单词,融合的新的文本区域的表示所对 应的文本区域起始于第i个单词,结束于第i n个单词。 进一步地,步骤(7)中损失值的计算方法为交叉熵损失函数,所述优化方法为随机 梯度下降(SGD)。 与现有技术相比,本发明的有益效果如下:本发明提出了一种全新的用于嵌套实 体检测的金字塔层级网络,所述金字塔层级网络的每一层解码层所处理的文本区域为上一 层解码层所处理文本区域的相邻两两融合,并且所述金字塔层级网络将不同长度的命名实 体在不同解码层输出,因此当前层解码层所预测的命名实体所对应的文本区域可以包含上 一层解码层预测的命名实体所对应的文本区域,从而能够解决嵌套命名实体识别的问题。 实验表明,该命名实体识别方法能有效识别嵌套命名实体识别,并能显著提高命名实体识 别的准确率。 7 CN 111581957 A 说 明 书 4/8 页 附图说明 图1是本发明采用的金字塔层级网络的整体构架图; 图2是本发明采用所述金字塔层级网络进行命名实体识别的示例图。
分享到:
收藏