logo好方法网

一种数据比对检测方法及系统


技术摘要:
本发明披露一种数据比对检测方法及系统,包括:有海量数据集,制定数据集检测策略,根据数据集检测策略生成检测数据集;对被检测对象进行分词,生成分词表;在检测数据集中确定比对关键词及其数据类型,在分词表中查找所述比对关键词的数据类型,并提取所有符合该数据  全部
背景技术:
传统上,使用诸如信息安全策略之类的安全过程以及诸如防火墙,虚拟专用网络 和入侵检测系统之类的传统安全机制来保持数据的机密性。然而,这些机制缺乏对保护机 密数据的积极性和主动性,并且在大多数情况下,它们需要预定义的规则采取保护措施。这 可能导致严重后果,因为机密数据可能以不同形式出现在不同的泄漏渠道中。因此,一直希 望使用更有效的机制来减轻这些缺点。最近,引入数据泄漏防护系统(DLPS)作为检测和预 防的专用机制,防止用户在数据传输时泄露机密数据。DLPS使用不同的技术来分析机密数 据的内容和上下文,以检测或防止泄漏。DLPS技术的核心是要首先检测出敏感数据,如果没 有准确的检测,数据安全系统就会生成许多误报(将并未违规的消息或文件标识为违规)以 及漏报(未将违反策略的消息或文件标识为违规)。目前常用的检测技术包括:正则表达式 检测(标识符);关键字和关键字对检测;文档属性检测;指纹文档对比IDM;精确数据比对 EDM;向量分类比对SVM; 但是随着大数据的迅速发展,企业掌握的海量数据达到亿级,现有DLPS技术针对 海量数据的检测效率低下,耗费大量的存储资源和计算资源,难以满足用户的使用要求。
技术实现要素:
本发明针对现有技术中的缺点,提供了一种基于哈希方式进行海量数据精确查找 和匹配的方法。 为了解决上述技术问题,本发明通过下述技术方案得以解决: 一种数据比对检测方法,包括: s01有海量数据集,制定数据集检测策略,根据数据集检测策略生成检测数据集; s02对被检测对象进行分词,生成分词表; s03在检测数据集中确定比对关键词及其数据类型,在分词表中查找所述比对关 键词的数据类型,并提取所有符合该数据类型的比对值; s04通过哈希方式,在海量数据集字段集合中查找并提取所有匹配的比对值,生成 比对数据集; s05判断分词表中是否有比对数据集中n个字段的组合数据集,其中n=1,2,3……n。 可选的,确定检测数据集中比对关键词及其数据类型,在分词表中查找所述比对 关键词的数据类型,若不存在所述比对关键词的数据类型,则流程结束;若存在,则提取所 述比对关键词的数据类型的字段所有的比对值; 若分词表中提取的比对值数量大于1,则循环执行s04和s05步骤,直至所有比对值 查找结束。 4 CN 111581328 A 说 明 书 2/6 页 可选的,计算分词表中提取的比对值的哈希值,并查找海量数据集中的比对关键 词的数据类型字段中是否存在相同的哈希值,若没有匹配,则流程结束; 若海量数据集中存在哈希匹配,则从海量数据集中提取匹配的其他比对值,生成 比对数据集,返回待用。 可选的,比对数据集中n个字段的任意组合数据集Ni,i为数据集编号; 分别比较分词表和Ni,若所有的Ni都没有包含在分词表中,则被检测对象不满足 制定的数据集检测策略,标记该检测对象为无匹配,流程结束; 若有任意组合数据集Ni包含在分词表中,则被检测对象符合制定的数据集检测策 略,对检测对象进行下一步处理。 可选的,通过哈希方式,在海量数据集字段集合中查找步骤如下: 当存储记录时,通过散列函数计算出记录的散列地址;海量数据集中将检测数据 集中的所述比对关键词的数据类型的比对值存到哈希表中; 当查找记录时,通过同样散列函数计算记录的散列地址,并按此散列地址访问该 记录;检查哈希表中是否存在所述比对值的哈希值。 可选的,通过基于词频度统计的分词方法获得待检测内容的分词表。 可选的,利用正则表达式在分词表中查找所述比对关键词的数据类型。 可选的,采用BitSet对被检测对象进行标记。 可选的,哈希方式处理过程中采用布隆过滤器过滤数据。 本发明还提供了一种数据比对检测系统,包括: 海量数据库,内有海量数据集; 检测策略输入单元,输入制定的检测策略,生成检测数据集,确定检测数据集中的 数据类型K; 分词计算单元,用于生成被检测对象的分词表; 第一检测单元,判断分词表中是否有数据类型K的字段值k,生成比对数据集; 哈希运算单元,用哈希方式进行海量数据集的查找; 第二检测单元,用于比对被检测对象的分词表和比对数据集; 输出单元,用于输出比对结果。 本发明的有益效果: 1、采用哈希方式行海量数据精确查找和匹配,运用于海量数据防泄漏技术中,提 高海量数据精确比对效率,降低存储和计算开销; 2、采用BitSet来实现对数据的标记,占用较少的存储空间; 3、采用布隆过滤器(BloomFiler),避免哈希冲突:布隆过滤器通过多个hash,增大 随机性,通过扩大数组范围,使hash值均匀分布,进一步减少了hash碰撞的概率。 附图说明 为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现 有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本 发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可 以根据这些附图获得其他的附图。 5 CN 111581328 A 说 明 书 3/6 页 图1是数据对比检测方法流程图。
分享到:
收藏