×
清洗世界

基于电力大数据清洗模型的异常数据识别方法

0 引言

电力是技术、方法与大数据理念在电力行业的实践。电力大数据涉及面较为广泛,不但涉及发电、输电、变电、配电、用电以及调度各个环节数据,还涉及跨专业、跨单位、跨业务数据。电力大数据主要由结构化数据与非结构化数据组成,随着电网建设规模的增加以及物联网的应用,非结构化数据增长速率较高,非结构数据数量远远的大于结构化数据[1]。电力大数据存在着纬度高、数量大、类型多与价值大的特性。电力大数据与国家宏观经济、国民生活、社会保障等有着紧密的联系,由此可见电力大数据的重要程度。然而,在获取电力大数据的过程中,由于环境以及设备自身因素的影响,电力大数据中会存在异常数据,这会对电力大数据分析带来极大的不利影响,为此提出电力大数据异常数据识别研究[2]。

就现有研究成果来看,被多数学者接受的异常数据识别方法为基于数理统计的异常数据识别方法与基于距离的异常数据识别方法。其中,基于数理统计的异常数据识别方法假设待识别数据满足统计学模型,则不满足统计学模型的数据即为异常数据,此方法识别效果显著;基于距离的异常数据识别方法假设正常电力数据之间的距离较小,而异常数据由于差异性与正常数据之间的距离较大,依据距离识别电力大数据中的异常数据。但是上述两种方法存在着异常数据误识率较高、清洗时间较长的缺陷,无法满足现今电力大数据分析的需求,为此基于电力大数据清洗模型设计异常数据识别方法。通过电力大数据清洗模型的应用,可以提升异常数据识别方法的性能[3]。

1 异常数据识别方法设计

异常数据识别方法主要是识别、清洗电力大数据中异常数据的过程,以分析现有异常数据识别方法难点为基础,采用Spark模型搭建异常数据识别方法框架,主要分为四个阶段,分别为获取正常电力大数据、选择正常大数据边界样本、异常数据识别与异常数据清洗[4]。具体异常数据识别步骤如下:

Step.1 在分布式文件系统上读取电力大数据,并执行cache操作将其转换为RDDs形式,通过并行CURE聚类算法获取正常电力大数据;

Step.2 通过正常电力大数据边界特点分析,选择正常电力大数据边界样本;

Step.3 以选择的正常电力大数据边界样本为异常数据识别依据,设置异常数据识别规则,执行异常数据识别算法;

Step.4 采用电力大数据清洗模型清洗上述识别的异常数据,得到精确的电力大数据。

1.1 获取正常电力大数据

实际生活中,电力大数据采集过程中具有数据校验功能,获取的电力大数据中大多为正常数据,异常数据只占据很小比例[5]。另外,电力大数据具有种类繁多的特点,若是直接识别电力大数据中的异常数据,存在着计算量大、识别效率低的缺陷。为此从读取的电力大数据中获取正常电力大数据,并选择其边界样本,以此为基础识别异常数据,这种方法可以极大的降低异常数据识别方法的误识率。

通过并行CURE聚类算法获取正常电力大数据,主要思路为删除离群数据。并行CURE聚类算法具体执行步骤如下:

step 1:在电力大数据中随机抽取一个样本,该样本具有一定的代表性;

step 2:将上述抽取的样本划分为多个尺寸相同的数据集;

step 3:对上述划分完毕的数据集进行聚类,得到个簇,计算簇中每个数据点的离散参数与离散程度判定值,计算公式表示为:

(1)

其中,表示的是数据点的离散参数;表示的是数据点的离散程度判定值;表示的是簇中数据点离群程的平均值;表示的是第个数据点的离群程;表示的是数据点中最小离群程。

step 4:依据计算结果,删除大于最小离群程阈值的数据点,对个簇进行第二次聚类;

step 5:循环step 3与step 4,直到不存在大于最小离群程阈值的数据点为止;

step 6:完成并行CURE聚类,得到正常电力大数据。

1.2 选择正常电力大数据边界样本

正常电力大数据边界样本具有三个特点:一是分散在正常数据点周围;二是可以表示正常数据点的形状;三是距离质心距离最远[6]。以上述得到的正常电力大数据为基础,选择正常电力大数据边界样本,具体流程如图1所示。

图1 选择正常电力大数据边界样本流程图Fig.1 Select normal power big data boundary sample flow chart

根据上述流程得到正常电力大数据边界样本如图2所示。

上一篇:古籍修复技艺之书页清洗去污 ——从参观“中
下一篇:最完美的地方