
技术摘要:
本发明提出的基于输入数据流的输出数据目标控制系统与方法。所述方法包括获取获取空间地理数据流集合、基于不确定性分离参数分离空间地理数据流集合、基于分布差异值选择输入数据流、将所述输入数据流投影到二维平面作为输出数据等步骤;所述系统则包括执行上述方法步 全部
背景技术:
随着物联网和大数据的发展,以往看似不相关的数据经过大规模的并行分布式计 算处理,变得可以理解,并能产生重要的意义。数据正在提供越来越重要的价值,不仅仅在 企业,数据下正成为企业管理变革过程中提供重要决策依据的关键资产,在公共事业领域, 数据也正在发挥越来越重要的作用。例如,广泛用于GIS的地理空间数据,该类型的数据是 支持所有GIS应用的基础,它提供了基本的地理空间要素数据,是其他专业应用数据集的基 础。地理框架数据既提供了相邻地理空间要素间的关联关系,又提供了地理空间要素的空 间结构。地理空间数据同时又是随时空变化的不确定性数据,其本身的数据至少包含时间、 空间、可信度以及误差范围等多个维度属性。 单纯文字记录型的地理空间数据专业化程度高,利用价值有限,因此需要采用数 据挖掘方法从中获得更有价值的部分。数据挖掘重要的手段就是可视化,通过可视化可以 非 常 直 观的 将地理空间 数 据内 在的 时 空 关 系展现 给 用 户。例如 ,申 请号为 CN201910027869.8的中国发明专利申请提供一种去专业化多源异构时空地理数据集成系 统,以地理信息系统技术、数据库技术和网络技术为支撑,解决上述地理信息资源在使用中 存在各部门、各专业数据建设标准不统一的问题,实现各种地理信息资源的互联互通和分 布式、在线式服务;申请号为CN201811090342.1的中国发明专利申请提供面向全球地理空 间数据的精度保证的在线交互式可视化方法以顶点树型层次结构、加权广度遍历算法为基 础的空间近似查询处理方法,解决网络GIS的交互式可视化与空间分析的功能与性能问题; 申请号为CN201611182291.6的中国发明专利申请则提出一种GIS软件中针对大数据的可视 化管理方法。 然而,现有技术针对空间地理数据的可视化处理方案中,都是基于确定性输入的 空间地理数据进行,而无法实现基于输入数据流的输出数据目标控制。
技术实现要素:
本发明提出基于输入数据流的输出数据目标控制系统以及方法,所述方法和系统 专用于地理空间数据的可视化,发明技术方案涉及到数据可视化技术、差异度确定技术、多 维数据投影方法等。 在本发明中,地理空间数据、空间地理数据、多维空间属性数据或者其他类似概念 是通用的,都表示同一个概念。 本发明中的地理空间数据的信息元包括至少三个维度:时间、空间和其他属性,还 可以将其他属性扩展为多个其他维度,例如可信度以及误差范围。针对每一个维度,其不确 定类型还可以分为8类:准确度、精确度、完整性、一致性和流通时间、独立性、可信度。 4 CN 111581316 A 说 明 书 2/5 页 本发明提出的基于输入数据流的输出数据目标控制方法及系统。所述方法包括获 取获取空间地理数据流集合、基于不确定性分离参数分离空间地理数据流集合、基于分布 差异值选择输入数据流、将所述输入数据流投影到二维平面作为输出数据等步骤;所述系 统则包括执行上述方法步骤的各个模块;本发明的重要改进在于基于分布式差异值选择输 入数据流,并将输入数据流投影到二维平面作为输出数据,从而完成可视化。 相对于现有技术直接对数据可视化的做法,本发明的可视化效果能够跟随输入目 标的变化而得到控制,从而最大程度的体现数据价值。 在本发明的第一个方面,提供一种基于输入数据流的输出数据目标控制方法,所 述方法基于包括人机交互界面的自动化系统实现,包括如下步骤: S101:获取空间地理数据流集合K,所述空间地理数据流集合K中每一个元素Ki均 包含如下维度属性:时间、空间、可信度以及误差范围; S103:通过所述人机交互界面接收用户输入的不确定性分离参数α和β; S105:基于所述不确定性分离参数α和β,将所述空间地理数据流集合K至少分为三 个子集K1、K2和K3; S107:计算所述三个子集K1、K2和K3的分布差异值J1、J2和J3; S109:基于所述分布差异值,选择所述三个子集之一作为输入数据流,选择所述输 入数据流中的时间属性和空间属性,将所述输入数据流投影到二维平面作为输出数据; 作为本发明的优点,所述分布性差异值基于集合元素的几何差异和分布差异得 出; 所述几何差异采用不同集合元素之间的欧氏距离表征; 所述分布差异按照如下方式计算: 其中,Ki(x)和Kj(x)是集合空间地理数据流集合的子集Ki、Kj的元素随时间变化的 分布函数, D为空间地理数据流集合K的所有集合成员所在的高维空间,i,j∈[1,2,3]。 具体而言,其中,S109所述将所述输入数据流投影到二维平面,具体包括: 基于所述输入数据流的时间-空间属性,将所述输入数据流对应的地理数据信息 元子集中的元素Ki投影为二维空间地理可视数据结构V: V={V1,V2,…V |V 2n i∈R }, 其中,Vi为Ki对应元素的低维投影坐标; 式中,Ni和Ri是Ki对应元素的近邻集和随机集,τij为权重系数; 将式(1)应用到输入数据流对应的地理数据信息元子集Ki中的每一个数据元素, 得到一个稀疏线性系统,求解该稀疏线性系统,可得到每一个数据元素的投影结果。 所述不确定性分离参数α,β∈[0,1];所述误差范围取值5%~95%。 优选的,其中,所述不确定性分离参数α和β与所述误差范围相关。 在本发明的第二个方面,提供一种基于输入数据流的输出数据目标控制系统,所 5 CN 111581316 A 说 明 书 3/5 页 述控制系统包括: 空间地理数据流集合获取模块,用于获取空间地理数据流集合; 集合拆分子系统,所述集合拆分子系统包括人机交互界面,基于所述人机交互界 面提示用户输入的至少一个集合拆分参数,将所述获取空间地理数据流集合拆分为至少两 个子集; 差异值计算组件,所述差异值计算组件用于计算所述至少两个子集的分布差异 值; 输入数据流选取组件,基于所述分布差异值,选择所述至少两个子集之一作为输 入数据流Y,选择所述输入数据流中的时间属性和空间属性,将所述输入数据流投影到二维 平面作为输出数据; 作为本发明的重要改进, 将所述输入数据流投影到二维平面作为输出数据,具体包括: 随机选择所述输入数据流的第一预定数据量的元素集Y1,采用迭代优化算法 SMACOF得到Y1的二维投影结果Y1′: 对所述输入数据流中未被选择的其余元素 构建拉普拉斯系统,求解该拉普 拉斯系统得到 的二维投影。 其中,在所述二维平面上的不同点之间的距离对应相应不同元素之间的不相似 度。 在本发明的第三个方面,提供一种基于输入数据流的输出数据目标控制系统,用 于实现前述的输出目标控制方法,所述控制系统还包括可视化界面,在所述可视化界面上, 将所述二维投影结果随时间和/或空间的变化趋势可视化的展现。 与此相对应的,基于同一发明构思,本发明还提供一种数据可视化系统,所述数据 可视化系统包括可视化界面并连接前述的输出数据目标控制系统,在所述可视化界面上, 将所述投影结果随时间和/或空间的变化趋势可视化的展现。 此外,本发明的上述方法可以通过计算机程序实现,所述程序存储于可读媒体介 质、计算机可读介质、可读光盘等,因此,还提供一种计算机可读存储介质,其上存储有计算 机执行指令,通过处理器执行所述指令,用于实现前述的方法。 本发明进一步的优点将在具体实施例部分结合附图进一步体现。 附图说明 为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例中所 需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施 例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获 得其他的附图。 图1是本申请输出数据目标控制方法流程示意图; 图2是本申请输出数据目标控制系统框架示意图; 图3是本申请数据可视化系统示意图; 图4是本发明所述目标控制方法的一个实施例; 6 CN 111581316 A 说 明 书 4/5 页 图5是本发明所述控制系统以及可视化系统的技术效果示意图。 具体实施例 为了能够更清楚地理解本发明的上述目的、特征和优点,下面结合附图和实施例 对本发明做进一步说明。需要说明的是,在不冲突的情况下,本申请的实施例及实施例中的 特征可以相互组合。 参见图1,是本发明一个实施例的基于输入数据流的输出数据目标控制方法,主要 包括如下步骤: S101:获取空间地理数据流集合K,所述空间地理数据流集合K中每一个元素Ki均 包含如下维度属性:时间、空间、可信度以及误差范围; S103:通过所述人机交互界面接收用户输入的不确定性分离参数α和β; S105:基于所述不确定性分离参数α和β,将所述空间地理数据流集合K至少分为三 个子集K1、K2和K3; S107:计算所述三个子集K1、K2和K3的分布差异值J1、J2和J3; S109:基于所述分布差异值,选择所述三个子集之一作为输入数据流,选择所述输 入数据流中的时间属性和空间属性,将所述输入数据流投影到二维平面作为输出数据; 在本实施例中,所述分布性差异值基于集合元素的几何差异和分布差异得出; 所述几何差异采用不同集合元素之间的欧氏距离表征; 所述不确定性分离参数α,β∈[0,1];所述误差范围取值5%~95%;优选的,当所 述误差范围取值为x%时,α等于0.x,例如,误差范围为20%,则α取值0.2;α β<0.95; 在本实施例中,所述将所述输入数据流投影到二维平面,具体包括: 基于所述输入数据流的时间-空间属性,将所述输入数据流对应的地理数据信息 元子集中的元素Ki投影为二维空间地理可视数据结构V: V={V1,V2,…Vn|Vi∈R2}, 其中,Vi为Ki对应元素的低维投影坐标; 式中,Ni和Ri是Ki对应元素的近邻集和随机集,τij为权重系数;将式(1)应用到输 入数据流对应的地理数据信息元子集Ki中的每一个数据元素,得到一个稀疏线性系统,求 解该稀疏线性系统,可得到每一个数据元素的投影结果。 这里的投影技术,来自于SMACOF(Scaling by Majorizing a Convex Function) 方法以及构建稀疏线性系统的拉普拉斯方法,所述拉普拉斯方法基于HVQ算法以及凸组合 (Convex Combination Theory)理论,例如Schneider等人提出的层次矢量量化 (Hierarchical Vector Quantization)法。 所述分布差异按照如下方式计算: 其中,Ki(x)和Kj(x)是集合空间地理数据流集合的子集Ki、Kj的元素随时间变化的 分布函数, 7 CN 111581316 A 说 明 书 5/5 页 D为空间地理数据流集合K的所有集合成员所在的高维空间,i,j∈[1,2,3]。 值得指出的是,不同与现有技术在计算差异值时通常采用KL散度值的做法,本发 明所述的差异指标值进行了进一步改进,并结合JSD(Jensen-Shannon)散度表达值,从而得 到适用于本发明场景的上述差异度,这是本发明的贡献之一。 参见图2,是本发明一个实施例的基于输入数据流的输出数据目标控制系统,所述 控制系统包括: 空间地理数据流集合获取模块,用于获取空间地理数据流集合; 集合拆分子系统,所述集合拆分子系统包括人机交互界面,基于所述人机交互界 面提示用户输入的至少一个集合拆分参数,将所述获取空间地理数据流集合拆分为至少两 个子集; 差异值计算组件,所述差异值计算组件用于计算所述至少两个子集的分布差异 值; 输入数据流选取组件,基于所述分布差异值,选择所述至少两个子集之一作为输 入数据流Y,选择所述输入数据流中的时间属性和空间属性,将所述输入数据流投影到二维 平面作为输出数据; 将所述输入数据流投影到二维平面作为输出数据,具体包括: 随机选择所述输入数据流的第一预定数据量的元素集Y1,采用迭代优化算法 SMACOF得到Y1的二维投影结果Y1′: 对所述输入数据流中未被选择的其余元素 构建拉普拉斯系统,求解该拉普拉 斯系统得到 的二维投影。 虽然未示出,但是在另一个实施例中,基于输入数据流的输出数据目标控制系统 还包括可视化界面,在所述可视化界面上,将所述二维投影结果随时间和/或空间的变化趋 势可视化的展现。 参见图3,是本发明数据可视化系统的一个实施例,所述数据可视化系统包括可视 化界面并连接输出数据目标控制系统,在所述可视化界面上,将所述投影结果随时间和/或 空间的变化趋势可视化的展现。 图4-5是本发明所述技术方案的技术效果示意图。 在图4中,分别基于不同的不确定性分离参数α和β,对同一个表征某海岛在不同季 节露出海面的地貌形态做了可视化展现; 图5中,则基于不同的不确定性分离参数α和β,对某海滩在一个时间段内的冲积形 状变化做了可视化展现。 相对于现有技术直接对数据可视化的做法,本发明的可视化效果能够跟随输入目 标的变化而得到控制,从而最大程度的体现数据价值。 通过上面