logo好方法网

一种识别标识解析流量的系统及方法


技术摘要:
一种识别标识解析流量的系统涉及信息技术领域,本发明由特征采集模块、流量解析器、已分类流量采集模块、字频计算器、标识流量概率计算器和未分类流量采集器组成;通过特征采集模块自动化生成标识流量的已归集的特征库,通过计算标识流量和非标识流量中的已归集特征库  全部
背景技术:
工业互联网标识解析体系是工业互联网网络体系的重要组成部分,是支撑工业互 联网互联互通的神经中枢,其作用类似于互联网领域的域名解析系统DNS。 工业互联网标识解析体系的核心包括标识编码、标识解析系统和标识数据服务。 其中: 1.标识编码:是机器、物品的身份证; 2.标识解析系统:利用标识,对机器和物品进行唯一性的定位和信息查询,是实现全球 供应链系统和企业生产系统的精准对接、产品的全生命周期管理和智能化服务的前提和基 础; 3.标识数据服务:能够借助标识编码资源和标识解析系统开展工业标识数据管理和跨 企业、跨行业、跨地区、跨国家的数据共享共用。 根据《工业和信息化部办公厅关于推动工业互联网加快发展的通知》的要求,我国 面向垂直行业新建20个以上标识解析二级节点,新增标识注册量20亿,拓展网络化标识覆 盖范围,进一步增强网络基础资源支撑能力。 随着标识解析发展越来越快,地位越来越重要,迫切需要一种技术手段,能够基于 流量数据,识别标识解析资产,从而为进一步分析标识解析的行为、安全风险提供基础支 撑。现有技术对流量的识别可以解析流量的四元组信息,流量的内容,但是并不能自动区分 流量是来自工业互联网的标识流量还是传统互联网的网络流量。 现有技术 全球存在多种标识解析体系,主要包括Handle体系、OID体系、Ecode体系等。以 Handle体系中的标识编码86.1000/ac.qd.1024为例,86代表中国,1000代表企业编码、ac代 表产品编码、qd代表地域编码、1024是产品序列号。其他标识体系也有自己的标识编码规 则。标识的前缀特征包括:地区码、企业码、产品码、地域码和产品序列号。 贝叶斯分类算法是统计学的一种分类方法,它是一类利用概率统计知识进行分类 的算法。在许多场合,朴素贝叶斯分类算法可以与决策树和神经网络分类算法相媲美,该算 法能运用到大型数据库中,而且方法简单、分类准确率高、速度快。由于贝叶斯定理假设一 个属性值对给定类的影响独立于其它属性的值,而此假设在实际情况中经常是不成立的, 因此其分类准确率可能会下降。为此,就衍生出许多降低独立性假设的贝叶斯分类算法,如 TAN算法。
技术实现要素:
鉴于现有技术的不足,本发明提供的一种识别标识解析流量的系统及方法由特征 4 CN 111581475 A 说 明 书 2/4 页 采集模块、流量解析器、已分类流量采集模块、字频计算器、标识流量概率计算器和未分类 流量采集器组成;特征采集模块由标识前缀特征采集模块、标识行为特征采集模块、标识解 析特征采集模块和贝叶斯归集模块组成;已分类流量采集模块由标识流量采集器和非标识 流量采集器组成;字频计算器由标识流量集字频计算器和非标识流量集字频计算器组成; 特征采集模块的标识前缀特征采集模块负责通过爬虫脚本针对标识解析相关权威网 站搜集标识前缀特征,标识的前缀特征由地区码字符串加企业码字符串加产品码字符串加 地域码字符串加产品序列号字符串组成;标识前缀特征所包含的字符串根据标识体系的区 别有前后顺序的区别,标识前缀特征采集模块对标识前缀特征所包含的字符串不做前后顺 序的要求,标识前缀特征采集模块适合采集所有标识体系的标识前缀特征; 特征采集模块的标识行为特征采集模块负责通过爬虫脚本爬取行业权威的标识管理 网站,搜集标识解析的行为特征和网络地址特征;标识行为特征包括:注册字符串、更新字 符串、删除字符串、查询字符串和解析字符串; 由特征采集模块的标识解析特征采集模块通过标识相关管理系统获取标识解析顶级 节点、二级节点对应的IP地址库,形成标识IP特征库; 由特征采集模块的贝叶斯归集模块根据贝叶斯算法对标识前缀特征、标识行为特征和 网络地址特征和标识IP特征库进行贝叶斯归集,生成已归集的特征库; 特征采集模块负责完成已归集的特征库并保持已归集特征库的更新; 已分类流量采集模块的标识流量采集器负责采集已经分类为标识流量的网络流量,生 成已分类标识流量并发送给流量解析器; 已分类流量采集模块的非标识流量采集器负责采集已分类为非标识流量的网络流量, 生成已分类非标识流量并发送给流量解析器; 流量解析器负责将已分类标识流量解析为已分类标识流量字符串的集合,并将已分类 标识流量字符串的集合发送给标识流量集字频计算器; 流量解析器负责将已分类非标识流量解析为已分类非标识流量字符串的集合,并将已 分类非标识流量字符串的集合发送给非标识流量集字频计算器; 字频计算器负责加载已归集的特征库,由标识流量集字频计算器计算已分类标识流量 字符串的集合中的每个字符串在已归集的特征库中的出现频率,并将已分类标识流量字符 串的集合中的每个字符串在已归集的特征库中的出现频率进行复合频率计算,生成标识流 量集字频指数;由非标识流量集字频计算器计算已分类非标识流量字符串的集合中的每个 字符串在已归集的特征库中的出现频率,并将已分类非标识流量字符串的集合中的每个字 符串在已归集的特征库中的出现频率进行复合频率计算,生成非标识流量集字频指数; 由标识流量概率计算器根据标识流量集字频指数和非标识流量集字频指数计算标识 流量阈值,标识流量阈值的计算的方法包括取标识流量集字频指数和非标识流量集字频指 数的中间值; 由未分类流量采集器采集未分类网络流量,由流量解析器将未分类网络流量解析成未 分类网络流量字符串的集合,由标识流量概率计算器加载已归集的特征库计算未分类网络 流量字符串的集合中的每个字符串在已归集的特征库中的出现频率,并将未分类网络流量 字符串的集合中的每个字符串在已归集的特征库中的出现频率进行复合频率计算,生成未 分类网络流量集字频指数,由标识流量概率计算器比较未分类网络流量集字频指数和标识 5 CN 111581475 A 说 明 书 3/4 页 流量阈值,当未分类网络流量集字频指数大于等于标识流量阈值时,标识流量概率计算器 标注由未分类流量采集器采集的未分类网络流量为标识网络流量。 有益效果 本发明通过特征采集模块自动化生成标识流量的已归集的特征库,通过计算标识流量 和非标识流量中的已归集特征库中出现的字符串的字频形成标识流量指数和非标识流量 指数,从而找到判定流量是否是标识流量的阈值,本发明的实施可以解决网络流量不能自 动判定是否是工业互联网流量的问题,易于推广和实施。 附图说明 图1是本发明的系统结构图。
分享到:
收藏