一种边坡形变监测数据的数据清洗方法与流程

专利2022-05-10  54



1.本发明涉及数据处理技术领域,具体涉及一种边坡形变监测数据的数据清洗方法。


背景技术:

2.边坡形变监测是一个长时间的过程,采集到的监测数据多种多样。为了保证后续数据分析结果的正确性,有必要对收集到的监测数据进行数据清洗预处理,滤除掉因外界干扰产生的不可靠数据,提高边坡监测数据分析的准确性。
3.在目前边坡形变监测数据的采集过程中,很多数据超出了数据的正常范围,或不符合正常变化趋势。采集到的边坡形变原始监测数据通常存在以下问题:1、受工程机械、人员、动植物影响导致的数据异常跳变;2、受监测环境通信信道、供电影响导致的数据丢失;3、由于监测设备本身问题,以及受外界环境的干扰导致的粗差数据。而目前在现有技术中,并没有一种技术方案可以对存在以上异常情况的边坡形变原始监测数据进行数据清洗,从而会影响后续的数据处理分析工作。


技术实现要素:

4.针对现有技术存在的不足,本发明提出一种边坡形变监测数据的数据清洗方法,以解决现有技术中存在的边坡形变原始监测数据存在的数据异常跳变、数据丢失和粗差数据,影响后续数据分析处理的技术问题。
5.本发明采用的技术方案是,一种边坡形变监测数据的数据清洗方法,包括以下步骤:
6.对原始监测数据采用时间序列分解法对异常跳变数据进行删除,得到第一清洗数据;
7.对第一清洗数据采用线性回归填充对缺失数据进行填充,得到第二清洗数据;
8.对第二清洗数据依次采用肖维涅准则、罗曼诺法斯基准则对粗差数据进行删除,得到第三清洗数据。
9.进一步的,采用时间序列分解法对异常跳变数据进行删除,具体如下:
10.s11、对原始监测数据进行趋势去除,得到多个子序列;
11.s12、对多个子序列使用局部多项式回归拟合进行平滑,将平滑后的多个子序列组合得到第一时间序列;
12.s13、对第一时间序列进行低通滤波,得到第二时间序列;
13.s14、根据第二时间序列对第一时间序列进行趋势去除,得到第三时间序列;
14.s15、根据第三时间序列对原始监测数据进行季节项去除,得到第四时间序列;
15.s16、对第四时间序列进行趋势平滑;
16.s17、判断第四时间序列是否收敛:如收敛,得到第一清洗数据;如未收敛,重复步骤s11~s16。
17.进一步的,对每个子序列使用局部多项式回归拟合进行平滑时,前后各延展1个时间点。
18.进一步的,对第一时间序列进行低通滤波具体采用以下方式:对第一时间序列进行3次滑动平均,进行1次局部多项式回归拟合。
19.进一步的,采用线性回归填充对缺失数据进行填充时,线性回归填充模型具体如下:
[0020][0021]
在上式中,z
k
表示第k个缺失值的填充值,a0、a
i
表示线性参数,x
ik
表示自变量,ε
k
表示随机变量。
[0022]
进一步的,采用肖维涅准则时,k
σ
取值范围为1.53σ~2.39σ,σ为标准误差。
[0023]
进一步的,采用罗曼诺法斯基准则时,显著水平α取值为0.01~0.05。
[0024]
由上述技术方案可知,本发明的有益技术效果如下:
[0025]
通过本实施例上述的技术方案,首先将原始监测数据中的异常跳变数据进行删除,再对缺失数据进行填充,最后对粗差数据进行删除,按照此顺序进行的数据清洗,可以消除异常跳变数据、缺失数据和粗差数据的干扰,保证经过数据清洗后的边坡形变原始监测数据基本不改变其趋势分布特点,十分适用于边坡形变监测后续的数据分析处理。通过数据清洗可以在保证数据完整性的条件下,提高数据处理分析的质量,降低实际分析过程所需要的时间。
附图说明
[0026]
为了更清楚地说明本发明具体实施方式或现有技术中的技术方案,下面将对具体实施方式或现有技术描述中所需要使用的附图作简单介绍。在所有附图中,类似的元件或部分一般由类似的附图标记标识。附图中,各元件或部分并不一定按照实际的比例绘制。
[0027]
图1为本发明实施例的数据清洗方法流程图;
[0028]
图2(a)为本发明实施例的包含异常跳变数据的数据状态示意图,图2(b)为异常跳变数据清除后的数据状态示意图
[0029]
图3(a)为本发明实施例的包含缺失数据的数据状态示意图,图3(b)为填充缺失数据后的数据状态示意图
[0030]
图4(a)为本发明实施例的包含粗差数据的数据状态示意图,图4(b)为删除粗差数据后的数据状态示意图。
具体实施方式
[0031]
下面将结合附图对本发明技术方案的实施例进行详细的描述。以下实施例仅用于更加清楚地说明本发明的技术方案,因此只作为示例,而不能以此来限制本发明的保护范围。
[0032]
需要注意的是,除非另有说明,本技术使用的技术术语或者科学术语应当为本发明所属领域技术人员所理解的通常意义。
[0033]
实施例1
[0034]
本实施例提供了一种边坡形变监测数据的数据清洗方法,数据清洗的对象包括异常跳变数据、缺失数据、粗差数据;如图1所示,包括以下步骤:
[0035]
s1、对原始监测数据采用时间序列分解法对异常跳变数据进行删除,得到第一清洗数据
[0036]
采集的原始监测数据中,有时会产生异常跳变数据,即同一时刻采集到多组数据映射到时间轴上。异常跳变数据产生的原因是由于监测设备采样频率不稳定导致的。比如:正常情况下,设备的采样间隔为每2h采集一个样本点;但是在实际边坡形变监测过程中,由于监测设备及通信环境的不稳定性,导致监测设备在很短的时间间隔进行了多次采样。在后期预警分析时,这些异常跳变数据会导致算法出现误判,认为这种数据快速变化是边坡失稳的前兆,发出误报信息,而频繁的误报会导致算法失效,将真正的报警信息淹没于误报信息智障,因此对异常跳变数据的识别至关重要。
[0037]
在本实施例中,采用时间序列分解法将时序信号中不同周期的信号进行分解,剔除周期异常跳变的数据。具体的,按以下步骤进行:
[0038]
s11、对原始监测数据进行趋势去除,得到多个子序列;
[0039]
在具体的实施方式中,对原始监测数据进行趋势去除时,因时间序列起始的趋势分量为0,所以赋初值为0。
[0040]
s12、对多个子序列使用局部多项式回归拟合进行平滑,将平滑后的多个子序列组合得到第一时间序列;
[0041]
对每个子序列进行局部多项式回归拟合。局部多项式回归拟合在估计某个响应变量值时,先从其预测变量附近取一个数据子集;然后对该子集进行线性回归或二次回归,回归时采用加权最小二乘法,即越靠近估计点的值其权重越大;最后用得到的局部回归模型来估计响应变量的值。使用局部多项式回归拟合进行逐点运算,可得到整条拟合曲线。
[0042]
在具体的实施方式中,对每个子序列进行局部多项式回归拟合时,前后各延展1个时间点,组合得到第一时间序列。
[0043]
s13、对第一时间序列进行低通滤波,得到第二时间序列;
[0044]
对第一时间序列进行低通滤波具体采用以下方式:对第一时间序列进行3次滑动平均,进行1次局部多项式回归拟合,以去除周期性差异,得到第二时间序列。
[0045]
s14、根据第二时间序列对第一时间序列进行趋势去除,得到第三时间序列;
[0046]
在具体的实施方式中,第三时间序列为第一时间序列减去第二时间序列。
[0047]
s15、根据第三时间序列对原始监测数据进行季节项去除,得到第四时间序列;
[0048]
在具体的实施方式中,第四时间序列为原始监测数据减去第三时间序列。
[0049]
s16、对第四时间序列进行趋势平滑
[0050]
在具体的实施方式中,对第四时间序列使用局部多项式回归拟合,完成趋势平滑。
[0051]
s17、判断第四时间序列是否收敛:如收敛,得到第一清洗数据;如未收敛,重复步骤s11~s16。
[0052]
使用时间序列分解法结合边坡滑坡机理,对异常跳变数据的跳变点前后时间区域的数据进行识别筛选,同时剔除无效数据。剔除异常跳变数据前后的数据状态示意图如图2(a)、图2(b)所示,图2(a)为包含异常跳变数据的状态示意图,图2(b)为异常跳变数据清除
后的状态示意图。通过与原始监测数据进行对比可以看出,上述方法有效地剔除了由于监测设备采样间隔不稳定导致数据中产生的重复数据,有效避免了数据误判对设备状态诊断造成的干扰。
[0053]
s2、对第一清洗数据采用线性回归填充对缺失数据进行填充,得到第二清洗数据
[0054]
在原始监测数据传输的过程中,由于监测设备或传输过程不稳定,经常会出现数据遗漏的现象,形成缺失数据。在本实施例中,采用线性回归填充对缺失数据进行填充。在具体的实施方式中,线性回归填充模型如下:
[0055][0056]
在上式中,z
k
表示第k个缺失值的填充值,a0、a
i
表示线性参数,x
ik
表示自变量,ε
k
表示随机变量。通过上述技术方案,对经过异常跳变数据处理后、得到的第一清洗数据中的缺失数据进行填充后,得到第二清洗数据。
[0057]
对于边坡形变的监测数据,因为其各个数据之间的回归关系比较显著,通过线性回归填充模型得到的缺失值的填充值接近于真实值,填充缺失数据前后的数据状态示意图如图3(a)、图3(b)所示,图3(a)为原始监测数据的状态示意图,图3(b)为填充缺失数据后的状态示意图。
[0058]
s3、对第二清洗数据依次采用肖维涅准则、罗曼诺法斯基准则对粗差数据进行删除,得到第三清洗数据
[0059]
原始监测数据在采集过程中,由于监测设备本身及外界环境的干扰,可能会产生一些远超数据正常变化阈值的非常规误差,形成粗差数据。
[0060]
在本实施例中,将肖维涅准则和罗曼诺法斯基准则相结合,对经过异常跳变数据处理、缺失数据填充后的第二清洗数据中的粗差数据进行删除处理,得到第三清洗数据。
[0061]
肖维涅准则假定对一物理量重复测量n次,其中某一数据在这n次测量中出现的几率不到半次,即小于则可肯定该数据是不合理的,应当予以剔除。根据肖维涅准则,应用随机误差的统计理论可以得到,在标准误差为σ的测量列中,若某一测量值的偏差等于或大于误差极限值k
σ
,则应剔除。
[0062]
罗曼诺法斯基准则首先将怀疑为异常的测量值剔除,然后按照t分布检验被剔除的测量值是否为异常值。将可疑测量值x
d
以外的其余测量值看作一个总体,假定该总体服从正态分布n(μ,σ2),由这些观测值计算均值与标准差σ,将可疑值x
d
当作样本容量为1的特殊总体。若x
d
与其余测定值之间同属于一个总体,则它与其余测定值间不应有显著性差异。如果由x
d
算出的统计量g大于显著水平α下的t检验法的临界值γ
α,n
k
α,n
,则表明x
d
的出现是一个小概率事件,判定其为异常数据。
[0063]
在本实施例中,首先使用肖维涅准则对第二清洗数据进行处理,在数据无法假定正态分布的情况下,肖维涅准则可以较为有效的删除粗差数据。在具体的实施方式中,使用肖维涅准则时,k
σ
取值范围为1.53σ~2.39σ,σ为标准误差。
[0064]
然后,对经过肖维涅准则处理后的第二清洗数据,可以假定其服从正太分布,此时再使用罗曼诺法斯基准则进行第二次处理,可进一步删除粗差数据,得到更为准确的监测
数据,即第三清洗数据。在具体的实施方式中,使用罗曼诺法斯基准则时,显著水平α取值为0.01~0.05,可以使得第三清洗数据的准确率到达95%~99%。填充缺失数据前后的数据状态示意图如图4(a)、图4(b)所示,图4(a)为包含粗差数据的状态示意图,图4(b)为删除粗差数据后的状态示意图。
[0065]
通过本实施例上述的技术方案,首先将原始监测数据中的异常跳变数据进行删除,再对缺失数据进行填充,最后对粗差数据进行删除,按照此顺序进行的数据清洗,可以消除异常跳变数据、缺失数据和粗差数据的干扰,保证经过数据清洗后的边坡形变原始监测数据基本不改变其趋势分布特点,十分适用于边坡形变监测后续的数据分析处理。通过数据清洗可以在保证数据完整性的条件下,提高数据处理分析的质量,降低实际分析过程所需要的时间。
[0066]
最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述各实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分或者全部技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的范围,其均应涵盖在本发明的权利要求和说明书的范围当中。
转载请注明原文地址:https://doc.8miu.com/index.php/read-1722522.html

最新回复(0)