logo好方法网

综合多通道数据来源的网络舆情热度评估方法及装置


技术摘要:
本发明公开了一种综合多通道数据来源的网络舆情热度评估方法,包括:步骤一、收集各通道的流数据;步骤二、量化流数据对于目标事件的敏感值和情绪标签;步骤三、基于敏感度和影响力量化得到主体指标值;步骤四、基于敏感消息数、各类情绪标签对应的消息数,量化得到内  全部
背景技术:
随着信息技术的迅速发展,互联网已成为思想文化信息的集散地和社会舆论的放 大器,社会民众可以更迅速、更直接、更真实的表达自己的观点态度。互联网在为民众提供 情绪表达、信息交流、建言献策的同时,更引发了一系列问题。特别是对于敏感事件,如果不 能准确把握其传播规律,及时采取有效的管理方法和手段,就会给社会舆论安全乃至国家 稳定与和谐带来一系列消极影响。因此,采用科学合理的方法全面且准确的对事件热度进 行评估具有重要意义。 目前网络舆情传播途径呈现出多元化特征,国内外的主流社交平台包括:微博、 twitter、Facebook、知乎、微信、QQ和telegram等。一个爆点事件一经发布,就会在各大社交 平台迅速传播演化,引发社会各界的广泛关注和讨论。因此,对于某事件的舆情热度评估需 打破传统局限于单一平台数据来源的约束,综合考虑事件在各个主流社交平台的热度演化 情况,从而更加全面准确地对热度进行评估。
技术实现要素:
本发明的一个目的是解决至少上述问题,并提供至少后面将说明的优点。 本发明还有一个目的是提供一种综合多通道数据来源的网络舆情热度评估方法, 建立了普适的网络舆情热度评估指标体系,评估结果更准确全面。 提供一种综合多通道数据来源的网络舆情热度评估装置,对网络舆情热度的评估 更准确全面。 为了实现根据本发明的这些目的和其它优点,提供了一种综合多通道数据来源的 网络舆情热度评估方法,包括以下步骤: 步骤一、收集每日各通道的流数据,并按通道来源分类存储,存储的每条流数据至 少包括该条流数据的来源、发布时间、文本内容; 步骤二、量化每条流数据对于目标事件的敏感值,以及提取每条流数据的情绪标 签; 步骤三、量化各用户和/或各群组在其对应通道的敏感度和影响力,基于敏感度和 影响力量化得到各通道的主体指标值; 步骤四、基于各通道的敏感消息数、各类情绪标签对应的消息数,量化得到各通道 的内容指标值,其中,敏感消息数为敏感值高于预设的敏感度阈值的流数据的条数; 步骤五、基于各通道每日的消息数、用户数、群组数,量化得到各通道的传播指标 值; 步骤六、基于主体指标值、内容指标值、传播指标值,量化得到各通道的综合热度 6 CN 111581370 A 说 明 书 2/12 页 值,以各通道的综合热度为参数计算得到目标事件当日的总热度值。 优选的是,采用敏感词匹配法量化每条流数据的敏感值,具体步骤为: 预设目标事件的包括多个敏感词的敏感词列表,每项敏感词具有敏感词本身和敏 感词权重; 将敏感词列表中的各项敏感词依次与各条流数据的文本内容匹配,各条流数据的 敏感值采用公式1计算得到; sensitive-value=∑xi*wi  公式1 其中,xi表示一条流数据中包含的敏感词列表中的第i项的敏感词,wi表示与xi对 应的敏感词权重,sensitive-value表示一条流数据的敏感值。 优选的是,采用情绪词典标注法提取每条流数据的情绪标签,具体步骤为: 预设情绪词典,情绪词典包括“积极情绪”、“消极情绪”、“中性情绪”三类情绪,每 类情绪均包括代表该类情绪的多个情绪词语,且每个情绪词语具有词语权重; 将情绪词典中的各项情绪词语依次与各条流数据的文本内容匹配,采用公式2计 算每条流数据分别属于三类情绪的情绪权重, w-sentiment=∑wordws*count(word)  公式2 其中,ws表示一条流数据的文本内容中的情绪词语word在情绪词典中对应的词语 权重,count(word)表示该情绪词语word在一条流数据的文本内容中出现的频数; 比较每一条流数据在三类情绪标签的权重大小,取情绪权重最大的情绪标签作为 该条流数据的情绪标签; 每条流数据的敏感值和情绪标签的结果以键值对的形式保存。 优选的是,所述通道包括不具有群组的知乎、微博、twitter、Facebook和具有群组 的QQ、telegram、微信。 优选的是,采用公式3计算各通道的主体指标值; participant-value=w5*[w1*sigmoid(avg-user-influence) w2*sigmoid(avg- user-sensitive)] w6*[w3*sigmoid(avg-group-influence) w4*sigmoid(avg-group- sensitive)]  公式3 其中,participant-value代表一个具有群组的通道的主体指标值,w1代表用户的 影响力主体指标权重,w2代表用户的敏感度主体指标权重,avg-user-influence代表该通 道的所有用户的平均影响力,avg-user-sensitive表示该通道的所有用户的平均敏感度, 并且w1 w2=1,w3代表群组的影响力主体指标权重,w4代表群组的敏感度主体指标权重, avg-group-influence表示该通道的所有用户的平均影响力,avg-group-sensitive表示该 通道的所有群组的平均敏感度,并且w3 w4=1,w5代表用户主体指标权重,w6代表群组主体 指标权重,并且w5 w6=1; 各通道所有用户的平均影响力为该通道内所有用户的影响力相加,并取平均值, 该平均值即为该通道的所有用户的平均影响力; 各通道所有用户的平均敏感度为该通道内所有用户的敏感度相加,并取平均值, 该平均值即出为该通道的所有用户的平均敏感度; 各通道所有群组的平均影响力为该通道内所有群组的影响力相加,并取平均值, 该平均值即为该通道的所有群组的平均影响力; 7 CN 111581370 A 说 明 书 3/12 页 各通道所有群组的平均敏感度为该通道内所有群组的敏感度相加,并取平均值, 该平均值即出为该通道的所有群组的平均敏感度; 各通道用户的影响力、用户的敏感度、群组的影响力、群组的敏感度的计算方法具 体为: 筛选预设时间范围内的某一通道的该用户和/或群组的流数据作为语料库,预设 时间范围为从当前时间点至历史某一时间点之间的时间范围; 获取语料库中采用步骤二量化得到的每条用户的流数据的敏感值,并计算语料库 中各用户的流数据的敏感值的平均值,该敏感值的平均值即为该用户的敏感度; 获取语料库中采用步骤二量化得到的每条群组的流数据的敏感值,并计算语料库 中各群组的流数据的敏感值的平均值,该敏感值的平均值即为该群组的敏感度; 用户的影响力采用公式4计算; user-influence=w1*ln(x1 1) w2*ln(x2 1) w3*ln(x3 1) w4*ln(x4 1)  公式4 其中,user-influence代表一个通道的一个用户的影响力,x1为该用户在预设时 间范围内去除向群组内发送的消息数后的发送消息数,x2为该用户在预设时间范围内的获 赞数,x3为该用户的粉丝数,x4为该用户在预设时间范围内新增的粉丝数,w1、w2、w3、w4、分别 表示消息数权重、获赞数权重、粉丝数权重、新增粉丝数权重,并且w1 w2 w3 w4=1; 群组的影响力采用公式5计算; group-influence=w1*ln(x1 1) w2*ln(x2 1) w3*ln(x3 1) w4*ln(x4 1)  公式5 其中,group-influence代表一个通道的一个群组的影响力,x1为该群组在预设时 间范围内向群组内发送的消息数,x2为该群组内群组成员的平均影响力,x3为该群组成员 数,x4为该群组在预设时间范围内新增的成员数,w1、w2、w3、w4分别表示消息数权重、群组成 员影响力权重、群组成员数权重、新增成员数权重,并且w1 w2 w3 w4=1。 优选的是,采用公式6计算各通道的内容指标值; content-value=w1*sigmoid(sensitive-message) w2*sigmoid(neutral- message) w3*sigmoid(positive-message) w4*sigmoid(negtive-message)  公式6 其中,content-value代表一个通道的内容指标值,sensitive-message代表敏感 信息数,neutral-message代表“中性情绪”标签的信息数,positive-message代表“积极情 绪”标签的信息数,negtive-message代表“消极情绪”标签的信息数,w1、w2、w3、w4分别表示 敏感信息数权重、“中性情绪”标签权重、积极情绪”标签权重、消极情绪”标签权重,并且w1 w2 w3 w4=1。 优选的是,采用公式7计算各通道的传播指标值; spread-value=w27*[w1*sigmoid(message-num) w2*sigmoid(user-num) w3* sigmoid(group-num)] w8*[w4*tanh(message-diffusion) w5*tanh(user-diffusion) w6* tanh(group-diffusion)]公式7 其中,spread-value代表一个通道的传播指标值,message-num、user-num、group- num分别代表总消息数、用户数、群组数,message-diffuion、user-diffusion、group- diffusion分别代表消息扩散度、用户扩散度和群组扩散度,消息扩散度为当前日相对于前 一日的消息数变化值,用户扩散度为当前日相对于前一日的用户数变化值,群组扩散度为 当前日相对于前一日的群组数变化值,w1、w2、w3分别表示总消息数权重、用户数权重、群组 8 CN 111581370 A 说 明 书 4/12 页 数权重,并且w1 w2 w3=1,w4、w5、w6分别表示消息扩散度权重、用户扩散度权重、群组扩散度 权重,并且w4 w5 w6=1,w7和w8分别表示数量的传播指标权重和扩散度的传播指标权重,并 且w7 w8=1。 优选的是,采用公式8计算各通道的综合热度值; value=w1*spread-value w2*participant-value w3*content-value  公式8 其中,spread-value代表一个通道的传播指标值,participant-value代表一个通 道的主体指标值,content-value代表一个通道的内容指标值,w1、w2、w3分别表示传播指标 权重、主体指标权重、内容指标权重,并且w1 w2 w3=1。 优选的是,采用公式9计算目标事件的当日总热度值; hot-value=∑cwc*valuec  公式9 其中,hot-value代表目标事件的当日总热度值,c代表一个通道,wc代表c通道的 热度权重,valuec代表c通道的综合热度值,wc的计算公式为: 其中,messsagec代表c通道的消息数。 提供一种综合多通道数据来源的网络舆情热度评估装置,包括: 存储模块,其用于存储收集的每日各通道的流数据,并按通道来源分类存储,存储 的每条流数据至少包括该条流数据的来源、发布时间、文本内容,用于存储每条流数据的敏 感值和情绪标签,用于存储各通道的主体指标值、内容指标值、传播指标值、总热度值; 数据处理模块,其用于量化每条流数据对于目标事件的敏感值,以及提取每条流 数据的情绪标签; 以及,用于量化各用户和/或各群组在其对应通道的敏感度和影响力,基于敏感度 和影响力量化得到各通道的主体指标值; 以及,用于基于各通道的敏感消息数、各类情绪标签对应的消息数,量化得到各通 道的内容指标值,其中,敏感消息数为敏感值高于预设的敏感度阈值的流数据的条数; 以及,用于以主体指标值、内容指标值、传播指标值为参数计算得到各通道的综合 热度值,以各通道的综合热度为参数计算得到当日的总热度值并储存; 以及,用于基于各通道每日的消息数、用户数、群组数,量化得到各通道的传播指 标值; 以及,用于基于主体指标值、内容指标值、传播指标值,量化得到各通道的综合热 度值,以各通道的综合热度为参数计算得到目标事件当日的总热度值; 输出模块,其用于输出主体指标值、内容指标值、传播指标值、总热度值。 本发明至少包括以下有益效果: 第一、不同社交平台数据格式和内容差异很大,因此需要综合考虑各个平台的特 点,建立普适的网络舆情热度评估指标体系。本发明综合考虑多通道的特点,构建了主体指 标、内容指标和传播指标共三方面指标,来综合评估目标事件的网络舆情热度。主体指标反 映了网络事件参与主体的结构组成,传播指标评估了网络事件在网媒的传播扩散度和舆情 热度,内容指标反映了对网络舆情的网民心理特征评价和内容敏感度。 第二、突破了传统方法仅通过单一通道热度来评估事件舆情热度的约束,综合考 9 CN 111581370 A 说 明 书 5/12 页 虑国内外七大主流社交平台对目标事件的讨论热度,确定各平台对舆情热度的贡献程度, 从而更加全面准确的对事件热度进行评估。因此,综合多通道数据来源的网络舆情热度计 算方法相较之前传统的基于单通道热度计算方法,结果更加准确全面。 第三、针对不同社交平台数据格式和内容差异很大的问题,本发明综合考虑各个 平台的特点,并基础目前学术界评估网络舆情热度指标体系构建的研究,建立对七大社交 平台普适的网络舆情热度评估指标体系,该指标体系不仅可以评估舆情热度值,更可深入 解释网络舆情热度演化背后的作用机制。 本发明的其它优点、目标和特征将部分通过下面的说明体现,部分还将通过对本 发明的研究和实践而为本领域的技术人员所理解。 附图说明 图1为本发明的其中一种技术方案的框架图。
分享到:
收藏