• 图纸下载
  • 专业文献
  • 行业资料
  • 教育专区
  • 应用文书
  • 生活休闲
  • 杂文文章
  • 范文大全
  • 作文大全
  • 达达文库
  • 文档下载
  • 音乐视听
  • 创业致富
  • 体裁范文
  • 当前位置: 达达文档网 > 创业致富 > 正文

    风电运营大数据关键技术

    时间:2020-10-30 15:12:22 来源:达达文档网 本文已影响 达达文档网手机站

    张兴

    摘要:本文探讨了风电运营大数据平台建设与应用过程中遇到的关键技术挑战和技术突破的方向。文章最后以大数据平台上建设风电经营管控模型中的应发电量为例,介绍基于大数据平台下应用系统及数据模型的建立。

    [关键词]风电运营大数据 经营管控模型 风电机组全寿命模型 性能分析模型

    大数据(big data),或称海量数据;是由数量巨大、结构复杂、类型众多数据构成的数据集合,通过数据的集成共享、数据处理与应用,交叉复用形成的智力资源和知识服务能力。大数据的4V特性(Volume、Velocity、Variety、Value)正在逐步改善工業制造领域和运营领域的效率。如何挖掘大数据来智能支撑风电运营商的各项业务并进行业务转型,是目前研究的热点问题。总体而言,风电运营大数据沉淀了五个维度的海量数据:一维风电场机组、升压站、测风塔、关口表等时间序列数据,一维设备台账数据,一维人员运行检修记录数据,一维运营指标数据,一维生产系统统计结果数据。

    其中,风电场机组、升压站、测风塔等时间序列数据量大(约占大数据平台数据总量的97%)。假设其每秒产生2KB的回传数据,一台风机一年产生的全量数据为60GB。当有上万台风机的时候,数年下来历史数据会达到PB量级。通过对五维数据建模实现3个业务的升级:风电经营管控模型、风电机组全寿命模型以及机组性能分析模型。

    1风电运营大数据平台

    如图1所示,风电运营大数据平台以开源Hadoop技术为基础架构,实现海量数据的存储和分析,实现信息一致、资源共享、消除信息孤岛。风电运营大数据平台的建设目标是:

    (1)建立一个规范化、标准化的数据共享资源,包括数据采集、数据存储、数据共享等的标准化。实现生产类,运营指标类等风电生产运营数据标准规格统一,完善数据分析指标体系。

    (2)解决现有信息化系统计算分析瓶颈。

    随着数据库数据的不断增加,计算分析所花费的时间随之延长,定时计算任务对服务器造成压力也较大,生产系统需要经常使用数据展示,不适合进行频繁的统计分析查询,计算任务也在逐年增加,有必要打破系统各自计算的现状,使用这种计算能力易扩展、分析方法分析手段丰富的大数据分析。

    (3)实现多种类型生产运营数据的存储分析。现有实时数据库目前只能存储浮点、开关量的数据,无法存储、振动波形、音频、视频、文本等生产数据,并发挥这些数据的价值。

    (4)实现数据接口、数据共享服务。现.有各类信息系统之间数据无法共享,各系统间存在数据孤岛问题,计算后的模型无法共享,存储的数据未在全集团共享,因此提高数据共享能力,能够降低各系统使用数据难度,实现数据价值最大化。

    2技术挑战

    风电运营大数据平台的建设对于风电经营管控模型、风电机组全寿命模型以及机组性能分析模型的提升带来以下几个技术挑战。分别是海量数据实时数据服务、海量数据存储、数据画像、行业数据模型建立、应用数据平台服务。

    2.1海量实时数据服务

    首先估算一台风机的回传数据大小,假设每台风机每秒回传500个数据点(即500个传感器属性),按运营商15000台风机估算,风电运营大数据平台的数据接收端需要实现750万点/秒的速率接收全部风机设备的回传数据,并且对收到的数据进行实时处理。首先,针对750万点/秒的回传速率,以每个数据点4Byte计,需要以28.6MB/s的吞吐量在异步消息平台实现数据的接收。其次,针对实时分析,需要实时分析平台的支持750万点/秒的实时处理。

    海量实时数据从风电场端前置机接收的数据用flume发送给Kafka进行异步消息发布,然后用Storm从Kafka集群中订阅相关消息,进行实时分析,分析结果再写入Kafka,然后用Flume从Kafka订阅消息后发送给HDFS落地。如图2所示。

    海量实时数据服务的架构优势在于:

    (1)前后都用Kafka对接数据流,场景通用,便于工程应用实施;

    (2)Storm支持实现复杂的监控逻辑,实现模型映射、数据清洗、数据修正、监控告警灯功能;

    (3)Kafka异步消息机制使生产者和消费者处理速度可以不同步,可在允许数据延迟的基础上保证数据的完整性;

    (4)Kafka和Storm的性能和可扩展性可满足大规模生产环境。

    2.2海量数据存储

    为最大化的利用数据存储空间,增加数据的访问效率,数据存储模块分为两大部分,一种是存储在大数据平台HDFS,一种是存储在关系数据库Oracle。大数据平台HDFS存储的数据有:秒级的时间序列数据,十分钟的时间序列数据。关系数据库Oracle存储的数据有:设备台账数据、人员运行检修记录数据、运营指标数据、生产系统统计结果数据。大数据平台HDFS采用列存储Parguet实现列存储,具体由实时数据服务将清洗和处理过的数据直接转换为Parquent列存储,或者落地HDFS后,周期性批量转为Parquent格式。如图3所示。

    在海量数据存储设计中,97%以上的数据存储空间存储的是秒级的时间序列数据,这些数据涵盖风电场风电机组、升压站、测风塔、关口表,是进行风电经营管控模型、风电机组全寿命模型以及机组性能分析模型基础原始数据。这些数据的访问速度直接影响到模型建立的和结果输出的时效性。Parquet是一种用于Hadoop的列式二进制文件格式,此格式对于大规模查询非常高效,是为充分利用以列的方式存储的压缩数据而创建的,列式存储和行式存储相比优势在于:

    (1)可以跳过不符合条件的数据,只读取需要的数据,降低I0数据量。

    (2)压缩编码可以降低磁盘存储空间。由于同一列的数据类型是一样的,可以使用更高效的压缩编码(例如RunLengthEncoding和DeltaEncoding)进一步节约存储空间。

    (3)只讀取需要的列,支持向量运算,能够获取更好的扫描性能。

    在工业大数据领域,大量的是时间序列数据,且具有采用Parquent而不采用文本数据格式能够降低约75%的存储空间,同时提升了约10倍的数据读取性能。

    2.3时序数据画像

    时序数据画像(DataProfiling),指基于统计方法抽取原始数据中的特征信息,用于描述原始数据,进而支持数据质量分析、数据探索等任务。

    机器数据画像的基本原理是针对风机产生时间序列数据进行全量扫描,针对每条序列的时间戳变化、模拟量取值、模拟量取值梯度、开关量取值、开关量切换等指标进行描述统计,得到一级数据画像指标,用于描述序列级别的数据特征;同此,结合设备的静态参考数据(例如设备分类、设备地区等),可以得到二级数据画像指标,用于描述静态参考数据聚合的机器数据特征。由于数据画像是基于全量时间序列进行分析,因此需要基于MapReduce或Spark等并行计算框架实现数据画像和结果汇总。

    如何区分数据质量问题和真正发生的异常状况是时字数据画像中技术应用挑战。

    数据质量分析包含数据缺失和重复、回传频率异常、长时间无变化、累加值为负等。通过离线批量计算的方式对风机时间序列数据进行定期分析,计算采集数据各维度的统计分布特征,使得数据服务中心可以随时掌握数据的自身特性,同时对数据本身确定性的质量问题,业务人员可以针对以上情况对数据采取相应措施。

    数据探索是从业务逻辑出发,对经过数据质量分析的数据,通过离线和在线数据挖掘技术利用SparkMLib机器学习算法对时序数据进行分析,Spark的设计初衷就是为了支持一些迭代的Job,MLlib目前支持四种常见的机器学习问题:分类、回归、聚类和协同过滤。

    通过在线采用ApacheKafka和Storm构建流式实时数据通道,并在此过程中完成对数据的实时分析。通过流数据挖掘算法,通过对数据在时间维度上的纵向统计分析以及多维度数据进行横向比对,在分析的过程中可以实时发现数据中存在的问题。

    2.4应用数据平台服务

    应用数据平台服务是大数据平台针对存储的五个维度的海量数据,对运行在大数据平台上的上层应用系统或者是第三方应用系统将能够提供如下数据服务:

    (1)所有存储的时序历史数据的的查询及接口服务,包括风电场机组、升压站、测风塔、关口表等时间序列数据。

    (2)所有接入的实时数据查询及接口服务;

    (3)所有应用系统写入的数据查询及接口服务,人员运行检修记录数据,运营指标数据,生产系统统计结果数据。

    (4)大数据平台的主数据的数据查询及接口服务,包括设备台账数据等。

    (5)大数据平台公共服务数据,包括标准功率曲线、拟合功率曲线、单台风机的各项应发电量和损失电量、单台风机的各项应发小时数、实发小时数和损失小时数、风机可利用率、风电场可利用率、综合厂用电量和综合厂用电率、限电比例等。

    应用数据平台服务的关键技术挑战在于提供数据服务接口的稳定性和时效性,根据数据服务类型和数量以及时效性开发的数据服务接口集,包含实时数据访问Restful接口、大数据平台访问的SQLonHadoop、数据库访问的SQLondatabase和定制化的API接口。具体见图4。

    2.5行业数据模型建立

    以大数据平台上建设风电经营管控模型中的应发电量为例,介绍基于大数据平台下应用系统及数据模型的建立。

    应发电量一项考核风电场以及区域公司发电效益的一项指标,并考虑发电量损失主、客观因素的风电场损失电量评价指标。

    利用单台机组月度十分钟数据拟合功率曲线计算每台机组的理论应发电量、机组故障停运损失电量、机组计划检修停运损失电量、限电损失电量、场内受累损失电量、场外电网计划受累损失电量、场外电网非计划受累损失电量、场外自然因素受累损失电量。

    其中,数据输入模块中十分钟数据利用SQLonHadoop接口取自于大数据平台,静态信息、异常申诉记录、月报数据取自于oracle数据库。数据计算模块采用SparkR编写,利用大数据平台的计算资源实现。数据计算流程图如图5所示。

    数据输出模块将单机应发电量和各项损失电量、月功率曲线存储在oracle数据库。

    3结束语

    大数据技术起源与互联网领域正逐渐对传统工业领域带来颠覆性影响,数据资产已逐渐受到风电运营商的重视。文章着重探讨了建设风电运营大数据平台遇到的关键技术挑战和技术突破的方向,分别是海量数据实时数据服务、海量数据存储、数据画像、应用数据平台服务、行业数据模型建立。大数据平台的建立,解决了传统行业数据采集、数据存储、数据计算、数据共享等问题,并且伴随数据资产的累积,利用大数据技术提升风电运营水平,促进风电信息化业务转型升级具有重大的意义。

    参考文献

    [1]李学龙,龚海刚,大数据系统综述[J].中国科学:信息科学,2015(01).

    [2]赵国栋,易欢欢,糜万军,鄂维南,著.大数据时代的历史机遇[M].清华大学出版社,2013.

    [3]李国杰,程学旗,大数据研究:未来科技及经济社会发展的重大战略领域——大数据的研究现状与科学思考[J].中国科学院院刊,2012(06).

    [4]WuXindong,ZhuXingquan,WuGongqing, et al. Data mining withbig data. Knowledge and DataEngineering.2014。

    [5]张东霞,苗新,刘丽平,张焰,刘科研.智能电网大数据技术发展研究[J].中国电机工程学报,2015(01).

    [6]Muhammad Bilal, Lukumon O. Oyedele,Junaid Qadir, Kamran Munir. Big

    Data in the Construction Industry:A Review of Present Status,Opportunities,and Future Trends [J].Advanced Engineering Informatics,2016.

    [7]张君艳,董娜,彭伟,郭禹伶。大数据平台在电力企业中的应用[J].河北电力技术,2016(01).

    [8]Yichuan Wang, LeeAnn Kung, TerryAnthony Byrd. Big data analytics:Understanding its capabilities andpotential benefits for healthcareorganizations[J]. TechnologicalForecasting & Social Change.

    相关热词搜索: 关键技术 风电 运营

    • 生活居家
    • 情感人生
    • 社会财经
    • 文化
    • 职场
    • 教育
    • 电脑上网