logo好方法网

一种信息分析方法、终端及存储介质


技术摘要:
本发明实施例提供一种信息分析方法、终端及存储介质,该信息分析方法包括:获取终端的即时通讯软件中的通讯信息,并对通讯信息进行分词得到多个词;基于多个词,生成通讯信息的文本特征;基于文本特征分析通讯信息是否属于黑色产业信息。
背景技术:
目前,在电商平台日常运营中,即时通讯(Instant  Messaging,IM)作为用户和店 铺沟通的桥梁,在维持店铺正常运营、改善用户体验方面发挥着重要的作用。但是有部分黑 色产业从业者,例如:刷单、刷排名、刷评论等人员,利用IM环境进行一些黑色活动,向店铺 运营人员发送相关的黑色产业广告,诱导店铺从事相关的黑色产业操作,以此来提升店铺 在平台上的各项排名;也存在部分用户向特定店铺频繁发送骚扰信息,影响店铺正常运行。 这些黑色产业广告、骚扰信息不仅影响到店铺正常运营,同时也侵害了电商平台的利益。因 此如何准确检测用户和店铺通过IM进行交流时的信息是否属于黑色产业信息已成为亟待 解决的问题。
技术实现要素:
本发明实施例提供一种信息分析方法、终端及存储介质,以解决相关技术中如何 准确检测用户和店铺通过IM进行交流时的信息是否属于黑色产业信息的问题。 本发明实施例的技术方案是这样实现的: 第一方面,本发明实施例提供一种信息分析方法,所述方法包括: 获取终端的即时通讯软件中的通讯信息,并对所述通讯信息进行分词得到多个 词; 基于所述多个词,生成所述通讯信息的文本特征; 基于所述文本特征分析所述通讯信息是否属于黑色产业信息。 可选的,所述获取终端的即时通讯软件中的通讯信息,并对所述通讯信息进行分 词得到多个词,包括: 获取终端的即时通讯软件中的通讯信息,并将所述通讯信息中的同音词转换为特 定词,得到目标信息;其中,所述目标信息包括所述特定词和所述通讯信息中除所述同音词 之外的词; 对所述目标信息进行分词得到所述多个词。 可选的,所述基于所述多个词,生成所述通讯信息的文本特征,包括: 确定所述目标信息对应的N维向量;其中,所述N为正整数; 从所述N维向量中提取与所述多个词对应的目标向量,并获取所述多个词的数量; 根据所述数量设置卷积神经网络模型的卷积窗口的第一参数; 通过所述卷积神经网络模型,对具有所述第一参数的卷积窗口和所述目标向量进 行卷积运算,得到特征向量;其中,所述特征向量用于表征所述文本特征。 可选的,所述确定所述目标信息对应的N维向量,包括: 4 CN 111581959 A 说 明 书 2/13 页 基于word2vec确定所述目标信息对应的N维向量。 可选的,所述通过所述卷积神经网络模型,对具有所述第一参数的卷积窗口和所 述目标向量进行卷积运算,得到特征向量,包括: 通过所述卷积神经网络模型,对具有所述第一参数的卷积窗口和所述目标向量进 行卷积运算,得到与所述卷积窗口对应的特征矩阵; 对所述特征矩阵进行下采样,得到所述特征向量。 可选的,所述基于所述文本特征分析所述通讯信息是否属于黑色产业信息,包括: 基于线性神经元网络模型对所述特征向量进行处理,得到目标参数; 基于归一化指数函数对所述目标参数进行处理,得到目标值; 基于所述目标值分析所述通讯信息是否属于黑色产业信息。 可选的,所述基于所述目标值分析所述通讯信息是否属于所述黑色产业信息,包 括: 获取所述目标值和预设数值范围之间的映射关系; 基于所述映射关系分析所述通讯信息是否属于所述黑色产业信息。 可选的,所述基于所述映射关系分析所述通讯信息是否属于所述黑色产业信息, 包括: 若所述目标值属于第一数值范围,确定所述通讯信息不属于所述黑色产业信息; 其中,所述预设数值范围包括所述第一数值范围。 可选的,所述方法还包括: 若所述目标值属于第二数值范围,发送验证码;其中,所述验证码用于对所述终端 的操作者通过所述即时通讯软件查看所述通讯信息的权限进行验证;所述预设数值范围包 括所述第二数值范围,所述第二数值范围中的数值大于所述第一数值范围中的数值。 可选的,所述若所述目标值属于第二数值范围,发送验证码之后,所述方法还包 括: 若基于所述即时通讯软件接收到所述操作者输入的所述验证码,通过所述即时通 讯软件传输所述通讯信息。 可选的,所述方法还包括: 若所述目标值属于第三数值范围,确定所述通讯信息属于所述黑色产业信息;其 中,所述预设数值范围还包括所述第三数值范围和第二数值范围,所述第三数值范围中的 数值大于所述第二数值范围中的数值,且所述第二数值范围中的数值大于所述第一数值范 围中的数值。 可选的,所述基于所述目标值分析所述通讯信息是否属于黑色产业信息之后,所 述方法还包括: 基于所述目标值,获取所述通讯信息的预测概率分布; 获取所述通讯信息的实际概率分布; 计算所述预测概率分布与实际概率分布之间的差值; 基于所述差值,采用梯度下降算法计算所述卷积神经网络模型的卷积窗口的第二 参数,并用所述第二参数替换第一参数。 第二方面,本发明实施例提供一种终端,所述终端包括:处理器、存储器和通信总 5 CN 111581959 A 说 明 书 3/13 页 线; 所述通信总线用于实现处理器和存储器之间的通信连接; 所述处理器用于执行存储器中存储的信息分析程序,以实现以下步骤: 获取终端的即时通讯软件中的通讯信息,并对所述通讯信息进行分词得到多个 词; 基于所述多个词,生成所述通讯信息的文本特征; 基于所述文本特征分析所述通讯信息是否属于黑色产业信息。 第三方面,本发明实施例提供一种存储介质,所述存储介质存储有一个或者多个 程序,所述一个或者多个程序可被一个或者多个处理器执行,以实现上述所述的信息分析 方法的步骤。 应用本发明实施例实现以下有益效果:基于训练样本数据对定义好的神经网络模 型进行训练,训练出一个良好的模型后,后续针对通讯信息的文本检测直接基于此模型进 行预测,输出结果为0-100的分值,根据不同区间的分值可以进行相应的处理,比如发送验 证码、直接拦截等。而且,本发明实施例中在数据预处理部分,将一些重点词语转换成拼音, 这样可以识别出文本中的同音字,防止黑产用户使用同音字刷单。相较于SVM文本分类方案 在处理某些词的不足,本方案利用CNN的局部感知特性,提取多个词组成的特征,进行网络 模型训练,降低了这类词带来的文本误杀,并且提高了检出率。 因为采用获取终端的即时通讯软件中的通讯信息,并对所述通讯信息进行分词得 到多个词;基于所述多个词,生成所述通讯信息的文本特征;基于所述文本特征分析所述通 讯信息是否属于黑色产业信息;如此,考虑了词在通讯信息的文本语境中的含义,避免了误 判,同时提高了黑色产业信息的准确检测;所以解决了相关技术中无法准确检测用户和店 铺通过IM进行交流时的信息是否属于黑色产业信息的问题,提升了黑色产业信息的检出 率,同时降低了误检率。 附图说明 图1本发明实施例提供的一种信息分析方法的流程示意图; 图2本发明实施例提供的另一种信息分析方法的流程示意图; 图3本发明实施例提供的一种模型训练的流程示意图; 图4本发明实施例提供的又一种信息分析方法的流程示意图; 图5本发明实施例提供的一种终端的结构示意图。
分享到:
收藏