• 休闲生活
  • 教育教学
  • 经济贸易
  • 政法军事
  • 人文社科
  • 农林牧渔
  • 信息科技
  • 建筑房产
  • 环境安全
  • 当前位置: 达达文档网 > 达达文库 > 教育教学 > 正文

    浅谈数据库技术中的数据挖掘

    时间:2021-04-08 07:53:44 来源:达达文档网 本文已影响 达达文档网手机站

    随着数字信息技术和计算机硬件技术中新存储介质和存储方式的不断发展,人类生活中的各类数据产生了爆炸式的增长,如何对这些数据进行整理和使用成为当前数据领域的研究热点,数据库技术的成熟与普及为这些庞大数据量的整理及挖掘带来了可能。但是传统的数据库管理系统和统计分析方法已经无法应对如此海量的数据,如何进行有效的数据挖掘还有待分析和整理。

    一、数据挖掘概述

    数据挖掘是数据知识发现的不可或缺的一个部分,其通过采用不同的分类手段和分析方法对大量数据进行分析,揭示它们之间的内在联系和发展趋势。数据挖掘是一门综合性学科,是随着人工智能技术和数据库技术发展起来的。其发展基础是超大规模数据库的出现、更加快速的计算机硬件突破、对巨大数据的快速访问需求及更为精确的数据机构算法。

    数据挖掘的主要任务就是对隐藏在数据中的模式进行发掘,描述当前数据的一般特性,并利用当前数据和历史数据对未来数据进行预测和分析。数据挖掘主要通过以下几种模式实现数据的分类处理:

    1.分类模式。该模式通过对训练数据集进行学习建立相应的符合模型特征的数据模型,进而建立模型规则、决策树或者数学表达式等,将新的数据按照上述规则进行数据分类和映射,实现不同数据的分类。

    2.聚类模式。该模式是利用数据的差别和相似性进行分类,主要针对未知的数据。具体实现为,将数据项按照不同类间的数据差别最大、同类间的数据茶杯最小的规则进行数据分类。该模式不依赖训练数据集和预先定义的类即可实现自动分类。

    3.回归模式。该模式类似于分类模式,但是不同点在于回归模式使用的是连续的预测值,而分类模式使用的是离散的预测值。回归模式优点在于将大量非线性问题进行变量转换变为线性问题,进而利用线性回归等处理手段进行模式归类,简化了归类算法。

    4.关联模式。该模式是通过利用预先已知的一套数据之间的关联规则对不同的数据进行挖掘,通过扫描前一次的数据库应用结果产生本次的扫描候选集,根据数据间的最小支持度和最小可信度实现不同数据间的关联。

    5.序列模式。该模式基于时间或者其他规律或趋势进行了建模和分类,是关联模式和时间序列模式的结合模式。这种模式主要在时间维度上对数据进行关联分类。

    6.偏差模式。该模式主要用来描述差异性数据。在某些情况下,差异型数据比普通数据更有使用和分析价值,这种模式就是对这种少数数据情况进行分析和归类的一种模式。

    二、经典数据挖掘方式

    具体数据挖掘的算法可以按照不同视角进行多种方式分类,这些视角主要包括生物学方法、信息论方法、集合论方法、最近研究趋势等。经过十几年的蓬勃发展,数据挖掘基本算法已经相对趋于成熟,而在其基础上进行的改进算法对数据挖掘的提升相对有限。

    1、神经网络算法。神经网络算法是生物学方向的一种经典算法,该算法通过某种规则对多个神经元进行关联,进而利用网络状态对外部输入信息的动态响应实现信息的处理,由于神经元具有分布式存储结构,故该种算法具有很强的容错性和鲁棒性。鉴于神经网络主要被用来获取分类模式,而该模式无法用明显的规则来表述,故这类算法的可理解性较差。同时由于要进行多次扫描和训练,故其在数据处理时间上具有明显的劣势。2、归纳学习。该算法以信息论为基础,通过对大量经验数据进行归纳和整理进行规则和模式的抽象总结,进而实现数据挖掘。C4.5是其中的一种经典决策树算法,其通过信息熵实现属性的分类,适用于大数据库中的学习和归类。3、粗糙集理论。该算法是一种用于对不完整、不确定数据进行表达学习和归纳的算法。该类算法不需要除所需处理的数据集合之外的其他任何先验信息即可实现数据的挖掘,对知识获取瓶颈的突破具有明显效果,可以发现差异性数据或者噪声数据的内在联系。

    三、数据挖掘研究热点及发展趋势

    鉴于数据库系统已经被广泛应用到各个领域,而各个领域又具有不同于其他领域的特点及需求,使得数据挖掘成为当前时期内信息系统领域研究的热点。尤其是在一些尖端科学及热门应用领域的数据库应用中的数据挖掘技术更是体现出了数据挖掘研究的发展趋势。

    数据表明,网络已经成为人们生活中不可或缺的组成部分,网站,尤其是电子商务网站每天都会生成庞大的日志文件和访问记录信息,如何对这些数据进行分析和挖掘可以帮助企业根据用户需求设计出更为人性化的交互界面,帮助企业增强市场竞争力。虽然基于网站的数据挖掘与传统的数据挖掘建模技术和算法使用差别不大,但是需要注意到,网站的数据库格式与传统的数据库还是存在一定差别,如何实现特定环境的数据挖掘优化是当前研究的一个方向。

    空间地理数据和视频流媒体数据也都建立在数据库的基础上。但是这类信息的数据挖掘还处于初步阶段,如何在海量数据中挖掘事先未知的和潜在有用的数据关系,帮助确定数据的内在联系和发展趋势还有待研究。但是可以确定的是,由于这类数据具有跨学科的综合性,故无法使用一般的方法进行数据挖掘,而应该建立多角度多学科交叉性的数据挖掘方式。

    未来基于数据库的数据挖掘肯定会朝着智能化、可视化、实时化、多维化、交互化方向发展,以适应更为复杂的和现实的数据环境。

    无论是在研究领域还是在商业应用中,基于数据库的数据挖掘都是一个热点话题,并且得到了越来越多的关注。随着数据挖掘技术的逐渐成熟,必须结合数据来源领域、数据应用领域、数据模型建立和算法理论基础等多方面因素进行数据的挖掘工作才能保证数据挖掘的有效性。

    相关热词搜索: 浅谈 数据库技术 数据挖掘

    • 生活居家
    • 情感人生
    • 社会财经
    • 文化
    • 职场
    • 教育
    • 电脑上网