logo好方法网

用于问答系统的插入和摄取框架


技术摘要:
一种用于问答QA文档数据摄取的系统决定通过第一多个子管道摄取文档数据,该第一多个子管道包括具有第一引擎组的第一子管道和具有第二引擎组的第二子管道,第二引擎组独立于第一引擎组。系统确定文档数据的子集,并决定通过第二多个子管道来摄取该子集,第二多个子管道  全部
背景技术:
问答(QA)系统通常是计算机应用,其挖掘在知识库中存储的数据以便回答问题。 建立知识库涉及通过处理管道来摄取大量输入文档,该处理管道被设计为从文档中提取有 用的信息并得出有用的关系。本公开提供了用于QA系统(诸如,但不限于,可从 获得 的WatsonDiscovery  QA系统)中的文档摄取的各种实施例。
技术实现要素:
公开了一种用于QA系统中的文档数据摄取的方法。该方法包括决定通过第一多个 子管道来摄取文档数据,该第一多个子管道包括具有第一引擎组的第一子管道和具有第二 引擎组的第二子管道。第二引擎组独立于第一引擎组,并且耦接到第一引擎组以从中接收 数据。该方法还包括确定文档数据的第一子集。该方法还包括决定通过第二多个子管道摄 取第一子集,该第二多个子管道包括具有第三引擎组的第三子管道和具有第四引擎组的第 四子管道。第四引擎组独立于第三引擎组,并且耦接到第三引擎组以从中接收数据。第二多 个子管道中的引擎组中的至少一个引擎和第一多个子管道中的引擎组中的一个引擎是公 共引擎类的成员。该方法还包括:选择来自第二多个子管道的输出数据,而不是来自第一多 个子管道的对应的输出数据;以及至少部分地基于所选择的输出数据来生成知识库。 公开了一种用于QA文档数据摄取的系统。该系统包括其中具有指令的存储器以及 与该存储器通信的至少一个处理器。该至少一个处理器被配置为执行指令以决定通过第一 多个子管道来摄取文档数据,该第一多个子管道包括具有第一引擎组的第一子管道和具有 第二引擎组的第二子管道。第二引擎组独立于第一引擎组,并且耦接到第一引擎组以从中 接收数据。该至少一个处理器还被配置为执行指令以确定文档数据的第一子集,并决定通 过第二多个子管道来摄取第一子集,该第二多个子管道包括具有第三引擎组的第三子管道 以及具有第四引擎组的第四子管道。第四引擎组独立于第三引擎组,并且耦接到第三引擎 组以从中接收数据。第二多个子管道中的引擎组中的至少一个引擎和第一多个子管道中的 引擎组中的至少一个引擎是公共引擎类的成员。该至少一个处理器还被配置为执行指令以 选择来自第二多个子管道的输出数据,而不是来自第一多个子管道的对应的输出数据;以 及至少部分地基于所选择的输出数据来生成知识库。 公开了一种用于QA系统中的文档数据摄取的计算机程序产品。该计算机程序产品 包括计算机可读存储介质,该计算机可读存储介质具有体现在其上的程序指令。该程序指 令可由至少一个处理器执行以使该至少一个处理器决定通过第一多个子管道来摄取文档 数据,该第一多个子管道包括具有第一引擎组的第一子管道和具有第二引擎组的第二子管 道。第二引擎组独立于第一引擎组,并且耦接到第一引擎组以从中接收数据。该程序指令还 可以由该至少一个处理器执行,以使至少一个处理器确定文档数据的第一子集,并决定通 过第二多个子管道来摄取第一子集,该第二多个子管道包括具有第三引擎组的第三子管道 和具有第四引擎组的第四子管道。第四引擎组独立于第三引擎组,并且耦接到第三引擎组 以从中接收数据。第二多个子管道中的引擎组中的至少一个引擎和第一多个子管道中的引 4 CN 111552576 A 说 明 书 2/16 页 擎组中的至少一个引擎是公共引擎类的成员。该程序指令还可以由至少一个处理器执行, 以使该至少一个处理器选择来自第二多个子管道的输出数据,而不是来自第一多个子管道 的对应的输出数据;以及至少部分地基于所选择的输出数据来生成知识库。 附图说明 为了更完整地理解本公开,现在结合附图和详细描述来参考以下简要描述,其中 相同的附图标记表示相同的部分。 图1是示出根据本公开的实施例的QA系统的示意图。 图2是示出根据本公开的实施例的代表性完整子管道、扩展该代表性完整子管道 的代表性排他(exclusive)子管道,以及扩展该代表性排他子管道的代表性增量 (incremental)子管道的示意图。 图3是示出根据本公开的实施例的代表性抽象子管道、扩展代表性抽象子管道的 代表性完整子管道、扩展代表性抽象子管道的代表性排他子管道,以及扩展代表性抽象子 管道的代表性增量子管道的示意图。 图4是示出根据本公开的实施例的QA系统的硬件架构的框图。 图5是示出根据本公开的实施例的用于文档数据摄取的方法的流程图。 所示出的附图仅是示例性的,并不意图主张或暗示对其中可以实现不同实施例的 环境、架构、设计或过程的任何限制。
分享到:
收藏