数据分析解决哪些问题(非关系型数据库都有哪些)

圈圈笔记 68

在长大桥梁的运营与养护中,发挥桥梁结构健康监测系统的作用相当重要。为了使系统能够满足实时分析、实时预测的要求,必须不断提升系统的技术水平,采用当前最新的技术来增强系统的功能与效率。时间序列数据库是近期大数据分析中使用最多的非关系型数据库,为时间序列数据分析与预测的基础,将其应用到结构健康监测系统之中则是十分必要的。

国内的公路桥梁结构监测系统开发始于十几年前,当时计算机软件行业只有ORACLE、SQL server等关系型数据库,时间序列数据库尚未问世,更无文本及图形类型的数据库,而后面这几类对于监测系统而言,恰恰是不可或缺的。

技术人员通过摸索和实践,研究开发了公路桥梁监测数据平台关键结构——时间序列数据库(TSDB),提升系统技术与作用,取得成果。

健康监测的数据疑难

对桥梁结构安全的分析与预测是监测系统最重要的功能,具体体现在系统进行实时数据采集、实时分析以及实时预测。系统每年运行365天,每天24小时不间断采集各种传感器的数据,而这些监测的数据是时间序列类型,并不属于关系型数据。

由于目前国内健康监测系统中普遍采用二进制文件方式存储时间序列数据,所以存在下列问题。

文件替代存硬伤

因当年成熟的非关系型数据库系统尚未问世,国内系统开发商普遍使用二进制时序数据文件代替时间序列数据库,以文本文件代替文本数据库,甚至还偶有使用关系型数据库来代替时序数据库的方式,虽然解决了系统的需求问题,但暴露出几个缺点:

1.由于数据文件及软件由各开发商自行编制,系统不成熟且不够完善,数据文件功能较差;

2. 数据文件按时间间隔定期存储(比如每个传感器每小时一个文件),无法实时进行分析与预测,只能离线加以处理;

3. 由于进行文件传输,数据文件和文本文件在网络中传送存在速度慢、效力低,甚至停滞现象。这些问题长期得不到解决,使系统的作用变得很差。

未设分析与预测功能

目前国内的大部分监测系统未开设分析与预测功能。一方面,如今的数据分析主要由人工完成,尚未实现在第一时间对突发事件进行评估与分析。另一方面,数据分析主要基于数据本身,还无法与桥梁物理模型进行智能融合。要实现这些功能,就需要应用时间序列理论与算法,编制软件在系统中运行。

缺乏统一标准

由于各家开发商的软件均为自行开发,所建立的也是单桥系统。而各桥结构各异,需求不同,所以软件也是五花八门,存在很大差异。而桥梁集群化管理的理念已在业内达成共识,未来将逐步实现全省一张网,乃至全国一张网的运行模式,所以建立统一的数据平台至关重要。

建立数据平台的统一标准就是要使数据结构保持一致,即需要对时间序列数据库进行统一定义,让其结构均保持一致。

把握大数据分析的起点

时间序列数据库主要用于处理带时间标签(按照时间的顺序变化,即时间序列化)的数据。数据采集、存储与传输是监测系统最基础的工作,也是保障数据质量的关键。它具有数据量大、速度快、分布广的特点,每个数据都能做到实时采集、实时存储及实时传送。此外,每座大桥一般都拥有成千上百个传感器,平台则能涵盖几十座、甚至上百座以上大桥。

时序数据库结构

健康监测系统的时间序列数据库结构主要包括两个重要部分:时间戳(timestamp)以及采样值(sample value),这两个部分数值的大小、长短以及类型可依据实际需求设定。数据库结构与存储请参见图1、图2及图3。

图1 时间序列数据库数据结构示意图

图2 时间序列数据库传感器表结构示意图

图3 时间序列数据库传感器存储结构示意图

系统所采用开源的、高性能InfluxDB时序数据库软件(见图4),具有数据的高性能读写、高效存储与实时分析、生态丰富、功能强大等特性。

图4 InfluxDB数据库软件示意图

存储数据以传感器的实际采样频率为单位,具体传感器采集数据设置如图5所示(仅为部分举例)。

图5 使用时序数据库进行传感器采集数据设置示意图

数据的转化

将时序文件数据转化为数据库数据,以上是使用新的时序数据库设置的健康监测数据库结构,研究人员还需要将现有的健康监测系统时序数据文件转换成新的时序数据库。目前,国内大部分健康监测系统都通过设立时序文件的方法代替时序数据库,所采集的数据利用二进制文件进行存储,中间计算与处理信息、报警信息则使用文本文件存储。而对于少量使用关系型数据库存储时序数据的,本文就不再予以说明。

现有的二进制数据文件结构展示如图6所示。

图6 健康监测系统中二进制数据文件结构

目前,使用二进制数据文件存储结构时,首先在采集所用计算机磁盘上建立子目录,如:各传感器子目录等,然后在传感器子目录下设立年子目录,再在其下建月子目录,并依此类推开设日子目录时子目录。

以一个小时作为一个文件,如:零点零分零秒开始至零点五十九分五十九秒结束。

由图6可见,现有的数据文件结构已经非常接近时序数据库的结构,根据上述时序数据库配置,即可编制出转化软件,将原有健康监测系统采集的、多年的历史数据直接转换到时序数据库,并存储在其中。

时间序列数据库是建立长大桥梁健康监测大数据分析平台的基础。研究并开发出从单个桥梁健康监测系统到数据平台的时间序列数据库,以适应健康监测海量数据以及人工智能与大数据分析的需要。

智能化的未来

随着新技术不断升级与发展,时间序列数据库功能日渐强大,通过技术人员的研究与开发,使用时间序列数据库将大幅提高长大桥梁结构健康监测系统与数据平台的功效,让系统能够真正实现实时采集、实时存储、实时传输、实时分析等功能,测试应用已取得了喜人的成效。同时,由于时间序列数据本身具有的分析与预测功能,研究团队还做了大量时序数据预测尝试,建立了预测算法与模型,编制了软件,经过一段时间运行后,经过不断的改进模型与训练,使结构监测系统的人工智能化程度不断提高,也为管养工作进一步智能化起到更大推动作用。

最近Google发布了用于时间序列预测的可解释深度学习方法,其发表在International Journal of Forecasting上的用于可解释多水平时间序列预测的时间融合变换器(TFT)——一种基于注意力的深度学习模型,可用于多水平预测的 TFT,旨在将模型与通用多水平的预测任务有效匹配,以实现卓越的准确性和可解释性。目前,有关团队正在研究如何将其应用到系统中。

本文刊载 / 《大桥养护与运营》杂志 2022年 第2期 总第18期

作者 / 张立奎

作者单位 / 安徽省交通控股集团有限公司

上一篇:

下一篇:

  推荐阅读

分享