基于数据挖掘的煤矿电网综合管理系统的研究

时间：2021-04-09 07:59:53　来源：达达文档网本文已影响人

摘要: 针对传统的煤矿电网不能及时获取足够的井下信息,对存在的安全隐患无法预警,容易发生故障的问题,基于对数据挖掘技术的分析,提出了一种基于数据挖掘的煤矿电网管理模型的设计方案。该模型应用Vxworks嵌入式软件、工控组态软件和实时数据库技术, 设计一种高效率煤矿电网运行的综合管理系统,系统结合数据仓库技术,采用分类、聚类、关联、时序搜索等多种挖掘模式,对多方面的数据进行分析、建模,达到预测报警的目的。解决了许多困扰煤矿生产现场多年的井下供电监控技术难点与安全运行中的重大隐患问题, 增强了矿井的抗灾和安全生产能力,具有一定的应用推广价值。

关键词:数据挖掘;数据仓库;煤矿电网;实时监视;故障预警;远程控制

中图分类号:TP311.13 文献标识码:A 文章编号:1672-1098(2009)03-0019-07

随着煤炭开采量的不断增加,煤矿安全形势依然严峻。有多种因素造成事故的发生,其中最主要的原因之一,是现有的供电网络监测系统虽然可以对井下的情况进行不间断地监测 , 但是存在信息孤岛,造成管理人员对电网运行状态不能全面了解。利用计算机技术对电网故障发生进行预测、识别、诊断是实施有效预防电网故障的前提和关键。

针对上述现状,基于工业以太网、井下局域网和CAN现场总线智能通讯技术,研制了一种基于数据挖掘的煤矿电网综合管理系统,在系统运行中,积累了大量历史数据记录、历史故障记录、实时数据记录等不同形式的数据,对这些数据进行有效的描述,以及构造一个综合预测平台。可有效提高煤矿电网运行效率,实现对变电所遥测、遥信、遥控、遥视。能预防隐患,降低危险系数,减少或杜绝事故发生,对煤矿安全生产具有重要的现实意义。

数据挖掘任务一般可以分为两类:描述和预测。本文从数据挖掘的任务出发,设计并实现了一个基于数据挖掘的煤矿电网综合管理系统,系统中实现了关键的挖掘算法,针对电网上不同类型的数据,经过转换、集成后,采用可视化技术和特定的挖掘模式,对数据进行图形展示,挖掘建模,以达到对电网故障等的预测与预防。系统实际运行评估表明:挖掘方法各有所用,且具有较高的预测质量。

1 数据挖掘

1.1 数据挖掘的背景和意义

近年来,数据库技术得到迅速发展,许多领域都建立了大型数据库,其中隐藏着许多有价值的信息,是不可多得的知识信息源,而目前的数据库系统一般只限于一些基本的数据查询操作,通过数据库管理系统只能对数据“粗加工”,不能从这些数据中归纳出隐含的、带有结论性的知识,使得这些有用知识无法利用,出现了所谓“数据丰富但知识贫乏”的局面 ,实际上是对数据库信息资源的一种浪费。因此,对数据进一步加工和内容分析显得越来越重要。在这样的背景下,数据仓库、数据挖掘等技术应运而生。

数据挖掘是一类深层次的数据分析,它能从大量数据中抽取出具有一定规律的知识,深层次的开发可以进一步提高信息资源的使用价值,充分利用信息资源,提高使用效益。数据挖掘给决策分析带来了新的途径,能更好地解决日益复杂多变的决策环境问题,进一步提高了决策的准确性和可靠性,为科学决策提供了基础。

1.2 数据挖掘的定义和方法

数据挖掘,又称为数据库中知识发现(Knowledge Discovery from Database,KDD) ,它是一个从大量数据中抽取挖掘出未知的、有价值的模式或规律等知识的复杂过程。这是被普遍采用的定义描述。数据挖掘是一个交叉学科领域,涉及的学科领域和方法很多,包括数据库技术、人工智能、机器学习、神经网络、统计学、知识表示、可视化等等。从数据到挖掘出知识的简单演化过程如图1所示。

数据清洗(data clearning) 其作用就是清除数据噪声和与挖掘主题明显无关的数据;

数据集成(data integration) 其作用就是将来自多数据源中的相关数据组合到一起;

数据转换(data transformation) 其作用就是将数据转换为易于进行数据挖掘的数据存储形式;

数据挖掘(data mining) 它是知识挖掘的一个基本步骤,其作用就是利用智能方法挖掘数据模式或规律知识;

模式评估(pattern evaluation) 其作用就是根据一定评估标准(interesting measure s)从挖掘结果筛选出有意义的模式知识;

知识表示(knowledge presentation) 其作用就是利用可视化和知识表达技术,向用户展示所挖掘出的相关知识;

数据挖掘的主要方法模式有分类、聚类、关联分析、回归分析等。

2 系统设计

2.1 系统总体要求

(1) 煤矿电网综合管理系统能够实现变电站终端计算机和电务厂矿区电网综合信息系统服务器的互联,充分利用现有计算机设备及OA系统,通过简便、高效的方式实现相关科室、SCADA与下属变电站之间的多种信息的共享和交互,使操作和信息网络化。

(2) 电务厂和各个变电站之间及电务厂和电力调度室之间通过建设专用通信网络(光纤)来实现远程计算机的互联,具备通讯速度快、线路质量高的特点,并具备可扩展功能。

(3) 变电站终端计算机应主要实现三项功能:变电站各类信息的存储与管理;微机五防及操作票自动生成功能 ;当地RTU实时数据的显示和应用等。

(4) 矿区电网综合管理系统应有完善的数据备份与更新功能。在服务器或通信线路因故不能运行时,各变电站的终端计算机系统仍应正常运行。

(5) 系统时间同步功能。该系统所属的服务器和终端计算机应与电力调度室共用一个GPS 时钟,定期对终端计算机进行校时,保证系统内所有时间同步。

(6) 系统具备良好的扩展性。如可以实现新增变电站、新增用户、新增记录等的添加。

(7) 系统应合理对权限进行划分,并实现数字化的笔迹签名。

2.2 系统设计原则

根据系统总体要求,按照计算机集成制造系统(CIMS)的指导思想,本着以下的原则设计了煤矿电网综合管理系统。

(1) 系统可靠性系统的硬件和软件均采用技术成熟的产品;

(2) 技术先进性选用国际先进的专业厂产品。

(3) 系统实用性硬件维护简单,软件系统操作方便;

(4) 可扩展性及开放性模块化结构有利于扩容与扩展。

2.3 系统网络环境及硬件配置

各个变电站和电务厂之间利用调制解调器或租用通讯公司通讯设备,借助PSTN通信网络以及终端服务器实现与电务厂之间的联系。各个变电站同时利用数据采集和控制系统(SCADA )的硬件、数据库及Web服务器、接入网关、以及光纤收发器借助于光纤实现和电务厂之间的连接(见图2)。

2.4 煤矿电网综合管理系统结构设计

根据煤矿电网管理的实际特点,围绕数据仓库技术,将预测报警系统设计为三大功能模块:数据管理模块、报表管理模块、数据挖掘模块。数据仓库需要后端工具和实用程序来加载和刷新它的数据, 该系统采用SQL Server 2000作为后台数据库环境, 数据管理模块实现对数据仓库的维护。操作数据库和其它格式的信息源通过数据管理模块, 构造数据仓库, 数据仓库通过数据挖掘模块进行数据的描述和预测, 报表管理实现报表的定制与打印(见图3)。

3 数据挖掘模块的实现

数据挖掘包括数据预处理、数据可视化、挖掘引擎和回归建模预测四部分。预处理方法有数据的规范化、离散化以及缺损处理,为挖掘的前期操作。数据可视化进行图表展示,能将表中相关字段数据以坐标形式形象表示出来,另外该部分中集成了简单的记录抽样和字段抽样功能,以便记录或者字段很多时,只显示出用户关心的数据。挖掘引擎引导用户选择特定的挖掘模式针对符合要求的数据挖掘知识,可对规则知识进行导出。由于电网运行过程中广泛采用回归方法进行预测,该模块中实现了回归建模、预测以及模型库的维护操作。下面对模块中实现的关键挖掘方法进行介绍。

(1) 数据规范化(Data Normalization) 为适应基于对象距离的挖掘算法,常需要对数据进行规范化处理。实现中采用两种规范化策略:最大-最小规范化和零-均值规范化。对于最大-最小规范方法,要求用户输入合适的区间范围。

(2) 数据离散化(Data Discretization) 用于减少给定连续属性值的个数,对属性进行概念分层,用高层次的概念替代低层次的概念。用户选择需要离散的数值属性,根据实际情况划分离散区间,并为每个区间映射一个区间标号,替代实际的数据值。比如“电压” 可以离散为“高”、“中”、“低”。

(3) 数据缺损处理(Blank Filling) 对含有缺损数据的数据表,选择缺损字段进行填充,系统中提供四种填充方式:以平均值填充、以最大值填充、以最小值填充、指定值填充。

(4) 分类(Classification) 通常数据挖掘中,将预测离散无序类别值的数据归纳方法称为分类方法。系统中实现了基于决策树归纳方法的分类模式。通过候选测试属性(判定属性)和类别属性构造一棵决策树,得到的分类模型以分类规则(IF-THEN)形式加以描述输出,用于预测未知数据实例的归属类别。采用常用的保持(holdout)方法对模型分类准确率进行估计,根据训练比例,将样本集分为训练样本集和测试样本集,训练样本用于得到决策树,测试样本用于计算分类规则的准确率。要求所有候选属性和类别属性都为离散属性, 连续值必须离散化。

分类方法具体实现以Delphi 7.0为开发环境,数据存储在SQL Server 2000数据库中, 实现过程分为两个阶段:规则获取和规则评价。采用holdout方法评估分类器预测准确率, 将样本空间按照一定比例随机划分为训练样本集和测试样本集,训练样本集用于得到诊断规则,测试样本集用于评估诊断的准确率。根据分类方法特点,样本属性分为候选测试属性( 即判定属性,描述电网故障特征指标的属性)和类别属性(描述电网故障类别名称的属性) 。要求所有候选测试属性和类别属性都为离散属性。

为方便决策树的构造和分类规则的提取,采用静态链表实现决策树的存储,数据结构定义如下:

TMiningTableInfo = record //表划分后的信息

FieldCount: integer; //表维数(划分一次,少一维)

RecordCount: integer; //记录个数

FieldInfos: array of TMiningFieldInfo; //字段信息

end;

TPartitionInfo = record //分支信息

AttrValue: string; //属性值

Pos: integer; //根据该属性值得到的划分在链表中的位置

end;

TDecisionTree = record //静态链表(数组)实现决策树的存储

CurTableInfo: TMiningTableInfo; //根据某一属性划分后的表信息

CurTestAttr: string; //当前测试属性

parent: integer; //该节点的父亲节点编号

IsSame:boolean; //标志是否已经在同一类中

AttrPartition: array of TPartitionInfo; //由测试属性的值引出的分支

end;

TClassification = class //定义类

TableName: string; //表名

ClassAttr: string; //类别属性

TestAttr: array of string; //候选测试属性

TrainingRate: double; //训练集比例

DecisionTree: array of TDecisionTree; //决策树

public

constructor Create(); //构造函数

procedure Produce_Set(); //产生训练样本集和测试样本集

//判断当前划分中的样本是否在一个类中

Function InOneClass(CurSet: TMiningTableInfo):boolean;

//计算样本分类所需的期望信息

function Calculate_Class_I(CurSet: TMiningTableInfo; c: integer):real;

//计算信息增益

Function Calculate_Info_Gain(CurSet: TMiningTableInfo; m: integer):real;

//产生if…then..诊断规则

procedure Produce_Rules(arrlen: integer);

//计算分类规则对测试样本的正确率

function Calculate_CorrectRate(): real;

//生成决策树

procedure DoClassification();

end;

根据上述算法数据结构定义,很容易理解算法实现思路。

(5) 聚类(Clustering) 是一个将数据集划分为若干组或类的过程,并使得同组内的数据对象具有较高的相似度,不同组中的数据相似度尽可能小。与分类不同,聚类分析在归类预测时所分析处理的数据均是无类别归属,是一种无教师监督学习方法。这里采用 k-means算法实现聚类,距离采用欧氏距离,聚类的结果由参与聚类的属性(数值属性) 决定 ,新数据实例通过计算其与各聚合中心的距离归为距离最小的组。具体实现算法以及数据结构定义此处落。

(6) 关联(Association) 关联规则挖掘就是从给定的数据集中搜索数据项之间所存在的有价值联系。根据关联分析的特点,本文采用Apriori算法,Apriori算法是一种最有影响的挖掘产生布尔关联规则所需频繁项集的算法。Apriori使用一种称作逐层搜索的迭代方法,k-项集用于探索(k+1)项集。首先,找出频繁1-项集的集合,该集合记作L 1 ,L1用于找频繁2-项集的集合L2,而L2用于找L3,如此下去,直到不能找到频繁k。这一算法思想利用了一个重要性质,称为Apriori性质:频繁项集的所有非空子集都是频繁项集。

关联规则获取分为两个阶段:第一阶段采用Apriori算法,得到频繁项目集(满足最小支持度要求), 第二阶段根据频繁项目集得到强关联规则(满足最小置信度要求)。数据结构定义为

type

TRuleSets = record

RuleStr: string; //关联规则

conf: real; //规则置信度

end;

TArrItemSet = record

Items:array of integer; //存放项目集中项下标

Sup: integer; //该项目集的支持度

end;

TAssociation = class

private

Min_Sup: real; //最小支持度

Min_Conf: real; //最小置信度

ArrItemSets: array of TArrItemSet; //保存

1…k项目集及其支持度

k_ItemPos: array of integer;

//保存第k项目集在项目集数组(ArrItemSets)中的位置

RuleSets: array of TRuleSets; //关联规则集

constructor Create();

procedure Find_FreqItemSets(arr: array of integer); //找到频繁项目集

procedure GetAssociationRules(); //得到关联规则

end;

频繁项目集得到后,采用集合求幂的方法得到所有关联规则,本文只关心规则结论为电网运行故障类别的强关联规则。在算法实现上设置最小支持度为5%,最小置信度为60% 。

(7) 回归对连续数据的预测通常利用统计回归方法所建的模型来实现。系统中实现了基于最小二乘法的线性回归,选择要建模的数据表,在此基础上选择预测变量和响应变量, 生成样本空间,计算回归系数,得到一元或多元线性回归模型,最后假设检验,保存模型, 根据该模型输入预测变量值,对响应变量进行预测。具体实现算法以及数据结构定义此处落。

4 系统功能及其运行效果图

(1) 实时测量与监视功能在一个界面上按顺序排列同时显示各个变电所的每一台开关的监测情况,实时显示三相电压、电流、零序电压、零序电流、视在功率、绝缘电阻、功率因数,有功电量、无功电量等电量数据;监视线路漏电、短路接地数据、开关分合闸状态、保护信号、操作电源消失、开关机构异常的情况(见图4)。

(2) 预警报警开关变位告警、保护动作告警、事故报警、可通过设置上限、上上限、下限、下下限实现电压电流越限预警、报警,在出现开关跳闸后可迅速判断故障所在范围 ,实现故障优先报警,并有动画图象、文字窗口、声音提示(见图5)。

(3) 事故回推画面发生开关跳闸或保护动作等事件时,系统能自动调出事故回路所在画面。

(4) 一键复电因上级电源原因发生大面积停电或因某一支路发生短路故障造成越级跳闸 ,引起较大范围停电时,能自动判断故障性质,并能将故障线路迅速切除,并具备一键复电功能,复电逻辑程序由使用人员进行具体设定,故障跳闸和越级跳闸后系统能自动锁定故障开关,不进行复位无法进行合闸操作。

(5) 无人值守功能用户可以根据其分配权限实现对保护装置进行远程定值修改、调整、投退、复位、漏电实验、短路实验、开关的远程分合闸、启动录波操作和挂接检修牌,提供并实现高低压开关的就地/远控两种操作控制方式,实现变电所无人值守。

(6) WEB浏览功能在局域网中的任何计算机,经授权均能浏览各类曲线、报表和实时图形。

(7) 数据库管理与查询采用实时数据库技术满足系统数据的实时读取与访问,实现系统数据安全管理、数据记录以及数据库管理, 包括数据备份、数据恢复等。报警历史记录查询运行效果如图6所示。

5 结束语

计算机、网络和通信技术的发展使煤矿电网远程监控成为可能, 使过去只能在局、矿调度室显示的监控数据能够在煤矿企业内部信息网上传输,并在本地服务器上利用数据仓库技术保存有效数据。引入数据挖掘技术对煤矿电网远程监控运行数据进行研究,大大提高了数据分析的效率和深度,解决了许多困扰煤矿生产现场多年的井下供电监控技术难点与安全运行中的重大隐患问题,在生产管理中是一个创新,具有一定的理论价值和推广意义。

参考文献:

[1] 张齐,周博慧.组态软件实时数据库的设计与实现[J].微计算机信息,200 7(6):161-163.

[2] 钱笑宇,张彦武.工业实时数据库的研究和设计[J].计算机工程,2005,3 0(1):98-99.

[3] 蔡林沁, 谢阅, 李凤得, 等. 基于Web混合模式的煤矿安全管理信息系统[ J].工业控制计算机, 2002, 15(8):7-8.

[4] 夏巍,丁刚,严辉.基于CAN总线的智能煤矿安全监控系统的设计[J].工矿自动化,2006(6):37-38.

[5] 刘希军,席波.煤矿井下电网综合自动化监测系统的应用[J].煤炭科学技术,2008(5):80-92.

[6] 陈跃,李德臣,袁小平,等.煤矿计算机监视监控系统中多媒体技术的应用[ J].能源技术与管理,2004(4):68-70.

[7] JIAWEI HAN,MICHELINE KAMBER.Data Mining:Concepts and Te chniques[M].Morgan Kaufmann Publishers,Inc.2001

[8] 朱明.数据挖掘[M].合肥:中国科学技术大学出版社,2002.

[9] 陈京民.数据仓库与数据挖掘技术[M].北京:电子工业出版社,2002.

[10] 史忠植.知识发现[M].北京:清华大学出版社,2002.

(责任编辑:何学华,吴晓红)

相关热词搜索：电网煤矿 数据挖掘 综合管理系统 研究

基于数据挖掘的煤矿电网综合管理系统的研究

最新文章

热门文章