• 休闲生活
  • 教育教学
  • 经济贸易
  • 政法军事
  • 人文社科
  • 农林牧渔
  • 信息科技
  • 建筑房产
  • 环境安全
  • 当前位置: 达达文档网 > 达达文库 > 政法军事 > 正文

    数据挖掘技术在学生信息管理系统中应用研究

    时间:2021-04-07 07:57:19 来源:达达文档网 本文已影响 达达文档网手机站

    摘要:该文的主要工作是针对我校目前各部门、各院系学生信息没有被有效的集成、不能被很好的共享这一现状,开发一个适应我校新形势下的学生管理信息系统。该系统是一个面向用户、面向网络数据管理的信息数据管理系统,利用数据库管理设计软件实现学生的信息管理,使对学生信息的管理更加容易、提高工作效率、降低管理成本。利用数据挖掘技术提高学院学生信息管理系统的智能决策功能,对学生毕业就业指导工作给以帮助和支持,取得了明显的效果。

    关键词:数据挖掘技术;学生信息管理;决策树;C4.5

    中图分类号:TP311 文献标识码:A 文章编号:1009-3044(2014)02-0241-03

    新疆高职院校的办学层次较多,有成人专科、本科、普通专科、本科,脱产1—2年的教师进修培训等,学生的年历、民族、学历等成分复杂。学院从2009年建立了教务管理对学生学籍、成绩等基本信息进行了收集整理和统计,使教学管理不再是冗杂的数据,而是按照系统进行性操作得到的一条条记录,使复杂管理程序简单化、信息化,提高了教学管理的效率和工作质量。但在学生管理方面,学院采取班级月考核制和操行分学生综合评价制度,大多通过手工计分、评分,学生信息数据没有得到有效充分的利用,在数据管理应用到学生日常管理、在校表现评价方面还是个空白。为了做好学生管理工作,有效的利用现有资源,是学生管理工作科学化、规范化、程序化,促进提高信息处理的速度、正确性。在现有的教务系统上,整理学生信息,理清日常学生管理工作流程流向,使其清晰化、合理化,较早的时间发现学生管理存在的问题,解决问题,提高学生管理工作水平,增强对学生管理工作的预见性,依据数据分析,提高了管理效率。

    1 数据挖掘

    1.1决策树算法

    决策树算法是数据挖掘中较常用的一种预测模型的算法,它对数据自动分类从而构造树形结构模型,对决策树进行分类。它采用信息增益的概念,以确定信息的理论为前提,在最大的信息量的数据库中的字段决定树中的一个节点创建,开始节点是一个结构的根节点,根据字段的不同的值进行树枝的分支。在树分支的过程中,每个分支中的子集交界处重复构建下一层分支。决策树已成为常用的分类工具之一,它是将一个训练文件分成一组通用规则的技术,因为它是在图模型树结构的基础上构建,因此,更容易让人理解。实例实例的集合可以分支成两个或两个以上的子集,子集数的底线是根据测试结果来确定,可构建所有可能分支的子集。决策树分类的数据可以在两个阶段,构建树和修剪树。首先,训练数据来测试函数生成不同的值进行比较分析,选择的一个分支,每个分支继续构建下一层的节点和分支,最终创建一个决策树,然后进行修剪树枝的过程,把决定树转换为分类规则。决策树算法中最基本的算法是ID3算法,随后又在ID3的基础上进行改进,开发了C4.5,C5.0,SLIQ,SPRINT等算法。决策树算法的优点有容易学习,便于使用,分类速度较快,精度较高,适用于大规模的数据处理和知识发现系统中。

    1.2 数据挖掘的步骤

    数据挖掘是复杂的多个步骤相互连接多阶段进行数据传输的过程。这些工作包括以下四个阶段。首先是对挖掘对象选择,其次对数据进行预处理,再次进行数据挖掘,最后对数据挖掘出的规则进行分析和取舍。下面对数据挖掘过程进行具体说明:

    1.2.1选择挖掘对象

    这个阶段的主要目标是以确定它是否符合数据挖掘的需要,达到解决客户提出的问题的要求,理清哪些数据需要来自客户,尽可能多渠道的获取支持数据挖掘的数据源,最后,确定挖掘对象,预测评估数据挖掘的结果。

    1.2.2 数据预处理

    这一阶段主要是合理的构建数据库的结构、内容等,为数据挖掘提供高质量的数据输入。它包括数据选择、数据预处理和数据转换阶段。数据选择阶段主要工作室将多个文件或多个数据库中的原始数据进行合并和处理,设计者理解、获取数据信息的相关知识,搜集和选取数据挖掘的目标数据,建立数据仓库。数据预处理阶段是要整合与查核数据,其主要任务是对数据进行清洗充实等,清理错误、去除噪声和与挖掘目标无关的数据,清除空白数据域和重复记录,使数据符合挖掘的要求,为下一步分析做准备。数据转换阶段的主要任务是对数据不同格式数据转换和各种数据的统一汇总,将数据进行编码,从数据库中不同的字段属性转换成编码形式,方便搜索。

    1.2.3实际数据挖掘工作

    这一阶段是数据挖掘过程的重要阶段,它主要任务是开发模型与假设,采用各种挖掘方法和挖掘模式对数据进行处理,发现潜在的、有用的规则等。它包括如何产生假设,选择合适的方法,挖掘知识的操作以及验证发现的知识。

    1.2.4结果分析与表示

    这一阶段属于总结收尾阶段,主要工作就让客户从数据挖掘提取出知识进行评价分析,把最需要的、最有价值的信息总结归纳,测试模型并检测数据挖掘结果,利用数据挖掘获得的知识来解决最初客户所提出的问题。最后,解释与使用数据模型,利用各种可视化技术再现结构使之更容易方便客户使用。

    2 C4.5算法

    C4.5算法采用了信息增益率作为对选择分支属性,当计算出每个属性增益率后,进行比较,选择最大的属性作为分支决策属性,通过每一个取值建立节点。信息增益率表示了有分支产生的有用的信息的比率,因此这个值越大,分支包含的有用信息越多。事实说明,采用信息增益率比采用信息增益更好,它有效的解决了ID3算法选择取值多的属性作为测试属性的问题。

    C4.5算法的整个过程是递归过程,停止于没有新的节点出现为止。C4.5算法不仅可以处理连续数值的属性,而且可以对定性属性实现一次分裂,对定量属性进行多次分裂,当数据缺失时,用表示缺失值。当进行测试节点时,可以删除节点的多余参数。据于以上功能,C4.5算法具有简单、高效,结果可靠等优点。

    3 依据C4.5算法构造学生就业信息分析模型

    3.1分析目的

    本课题收集了2008级维、汉、哈三种语系的毕业生数据,提取毕业生数据库,因此分院的毕业生去向在南北疆及乌鲁木齐本地,比较具有代表性。以此数据作为训练实例数据集,具有普遍的意义。旨在构建一个学生就业信息数据分析模型,找出影响学生就业去向的关键因素,并用于预测。

    3.2数据处理

    本课题抽取2008级毕业生的人文科学分院语文教育专业的学生成绩信息,毕业信息和学籍信息。针对这些信息进行了数据清理、数据转换、数据加载的功能编程设计。从毕业生数据库中提取的基本信息表中,有少数学生已经退学或转专业以及中途参军入伍的学生信息将从列表中去除。使用SQL server2008的Analysis Services服务器建立多维数据表。七个维度分别是外汉语成绩、专业课成绩、实践能力、是否学生干部、单位性质。外汉语成绩大于等于85为优秀,介于60至85之间为合格,小于60为不合格。专业课成绩大于85为优秀,小于85为一般,教师口语、计算机基础、见习等列为实践能力成绩,大于85为优秀,小于85为一般。

    将工作单位单位性质分为五类:教育机构包括中小学、幼儿园和培训中心的就业的学生,单位性质编码39;企业公司包括自主创业择业的学生,单位性质编码70;暂缓就业包括专升本或者成人本科的学生,单位性质编码为71;特岗教师包括考取地州县教师岗位的学生,单位性质编码为50;公职人员包括考取公务员的学生,单位性质编码为51。

    3.3数据分类

    根据决策树算法的信息增益理论,设计数据挖掘分析器,分析计算得出就业实例集增益值得柱形图。此页面可以对决策树的算法进行选择,并且对提取的就业实例集的数据根据信息增益率的计算公式进行分析计算,在分析图表中显示民族、性别、外汉语水平、专业成绩、实践能力各个属性的增益率,并用柱形图进行表示。选出最大属性的增益率后,复位后,重新计算下一个节点属性增益率的计算,只到遇到所有属性的增益率全部计算完毕停止计算。

    由于属性“专业水平”具有最大信息增值率值,故而选择该属性作为决策树的根节点。对于每一个分枝,重复上述步骤。

    3.4生成分类规则

    数据挖掘分析器得出分类规则:

    1) IF专业成绩=优秀+外汉语成绩=优秀+实践能力=优秀+民族=民THEN就业单位=50

    2)IF专业成绩=优秀+外汉语成绩=优秀+实践能力=一般THEN就业单位=71

    3) IF专业成绩=优秀+外汉语成绩=合格+实践能力=优秀+民族=汉 THEN就业单位=39

    4) IF专业成绩=一般+外汉语成绩=合格+实践能力=一般 THEN就业单位=70

    5) IF专业成绩=优秀+外汉语成绩=优秀+实践能力=一般+民族=汉THEN就业单位=51

    6) IF专业成绩=优秀+外汉语成绩=优秀+实践能力=优秀+民族=汉THEN就业单位=71

    3.5情况分析及建议

    有(1)说明专业素质好,外汉语水平高,实践能力强的少数民族考取特岗的教师的可能性大。由(2)可知我校毕业学生学历为专科层次,在校期间专业成绩和外汉语成绩较好的学生都会通过复习通过专升本或成人高考提高学历。由(3)可知实践能力强的学生适合教育机构的需要,符合我校面向小学、学前教育培养教师的目标。另外,汉语水平相对较好的少数民族毕业生就业机会较大。在校期间少数民族学生如果担任学生干部,汉语水平相对较高。

    由就业决策树图可知:专业成绩、外汉语成绩和实践能力是大学生提高就业率的重要因素,每一类就业单位都需要实践能力强的毕业生。

    综上所述,提出两点建议:

    1) 加强实践教学技能课程的设置。

    2) 重视外汉语的教学,提高教学质量。

    4 结论

    本系统使用dephi2000和SQL server 2008开发,SQL server在开发数据库方面具有强大的功能,dephi能方便快捷的进行B/S模式下学生信息管理系统的界面和功能开发,用它实现数据库离散化,C4.5算法生成决策树以及分类规则,提供学生就业指导决策服务。

    参考文献:

    [1] 刘幸东.高校学生就业信息的决策支持系统的应用研究[D].广州:中山大学,2006.

    [2] 李海琼.数据挖掘技术在辽宁大学就业辅助决策分析系统中的研究与应用[D].沈阳:沈阳工业大学,2009.

    [3] 刘鹏,姚正,尹俊杰.一种有效的C4.5改进模型[J].清华大学学报,2006(46):996-997.

    [4] 刘佳,王新伟.一种改进的C4.5算法及实验分析[J].计算机应用与软件,2008(12):260-262.

    • 生活居家
    • 情感人生
    • 社会财经
    • 文化
    • 职场
    • 教育
    • 电脑上网