高校人事管理数据库技术应用初步研究

时间：2021-04-08 07:55:03　来源：达达文档网本文已影响人

摘要：随着计算机技术的进步，许多高校相继建立了日益完善的人事信息管理系统，积累了大量的完整数据。本文以教职工信息库作为基础信息来处理的，通过对整个院系（或学科）的教职工的个人信息进行加工处理、运用统计方法对每一个学科的院系（或学科）分别进行聚合、挖掘。从而找出影响学科发展的因素及各因素间的关联关系。

关键词：高等学校；人事管理；数据库技术；应用研究

中图分类号：G203文献标识码：A文章编号：1009-3044(2008)05-10ppp-0c

1 引言

随着计算机技术的进步，许多高校相继建立了日益完善的人事信息管理系统，积累了大量的完整数据。目前，这些数据的主要用途是向各级管理部门提供各类统计报表和信息查询，但对这些数据所隐藏的价值没有挖掘利用，十分可惜。借用计算机和数据库管理手段，实现人事管理目录信息的计算机化和网络化管理。它包括建立人事档案部局域网环境，加强部门内部人员之间的信息沟通和网络化应用：建立人事管理数据库，实现人事管理目录信息的统一管理：实现对人事管理基本信息的增、删、查、存、转等操作以及统计、打印等功能：采用条码技术实现档案盘点功能：整合现在文件级数据，将单机版数据加载到网络数据库中，实现人事管理数据的集中存放和统一模式的管理。本文以高校人事信息库为对象，研究数据挖掘的方法。以图“透过现象看本质”，找出有价值的信息，为管理决策者提供参考。

2 高校人事管理数据库概述

高校人事信息库是由几个子库组成的，这些子库按照级别分：院系（或学科）信息库和院系的教职工信息库。院系（或学科）信息库称院系情况信息库，它由下列字段组成：学科（或系）代号，学科（或系）名称，学科（或系）在全国的学术排名。建立时间，教职工总数，教学人员编制数，教学人员实有人数。科研人员编制数，科研人员实有数，文献总量，文献购置费，仪器设置总值，大型仪器设备台件数，国家级重点实验室个数，本科生总数，硕士生总数，博士研究生总数，留学生总数，其他学生数，学科带头人年龄，学历、性别等，是院系（或学科）的基本情况库。

院系（或学科）的教职工信息库是由教职工基本情况库、教职工来源情况库、工作简历情况库等22个子库组成，这些情况库是反映每位教职工的各方面情况的档案库。这些库中有些情况是不会变化的，如：出生年月、性别、民族、出生地等；有些情况变化频率不高，如部门、室科组、来源情况，婚姻状况等；有些情况变化频率较高，如教学工作情况、奖惩情况、发表论著情况等。如果对所有的情况一并对待不利于数据挖掘。本文并未对上述教职工信息库进行直接挖掘，而是以它作为基础信息来处理的，通过对整个院系（或学科）的教职工的个人信息进行加工处理、运用统计方法对每一个学科的院系（或学科）分别进行聚合、挖掘目的是：找出影响学科发展的因素及各因素间的关联关系。

3 用关联规则发现技术对人事信息库进行挖掘

关联规则技术是数据挖掘领域的一个重要方法，其方法和算法近几年研究较多。所谓关联规则就是描述数据库中数据项（属性，变量）之间所存在的（潜在）关系的规则。根据人事工作战线上的老同志的经验，在人事管理中，发现一些平时并不能引起注意的因系（或规则），具有十分重要的意义。设一个项目的集合I为数据库D中所有的120个项目的集合，每一个记录中的项都是按字典顺序存储的。数据库D中的一个记录T（即T含40个项），T I，T与一个唯一标识符Tid相联系（即记录的形式是）。

关联规则发现算法的主要问题是通过怎样的算法找出所有强项集(large item sets)，然后找出有效关联规则。所以挖掘所有有效关联规则的问题可分为两个子问题：① 寻找所有的支持度大于最小支持度的项集，即寻找所有的强项集；②用这些强项集去产生想法的规则。第二个问题相对容易解决。

4 算法讨论

Agrawal等人几年前提出了关联规则的发现算法AIS和SETM，1994年又提出了改进算法Apfiofi和ApnofiTid。AIS和SETM算法都是在将记录数据读人数据库的过程中迅速生成候选数据项集。在读人新的记录数据后，就要决定前次过程中的强的数据项集中的哪些应该和这些读入的记录数据中的数据组合，以产生新的候选数据项集。这种方法的缺点是导致许多不必要的数据项集的生成和计数。而Apriori和AprioriTid算法只利用前次过程中生成的强的数据项集来生成新的候选数据项集，因此具有k个数据项的候选数据项集可以通过对具有k-1个数据项的强数据项集组合而生成，删除了那些包含任一k-1子项集不强的数据项集。所产生的候选数据项集要小得多，提高了算法的效率。

文献给出了多层关联规则的发现算法ML_T2T1，ML_T1TA，ML_T ML4和ML_T2TA 这几个算法与Agrawal等人的算法不同在于彩了层次优化技术。而层次算法的缺点是层次是由系统早已定好的。不利于挖掘一些人们从未想到过的有效规则。

Apriofi和AprioriTid算法不考虑数据库中具体的记录来生成候选集。仅仅考虑在上一次扫描中发现为强的项集，用它们生成候选项集并在本次扫描中计数。指导思想是任一强项集的子集必定是强的。因此，由k个项组成的候选项集是由k-1个项组成的强项集生成的。并且删除那些包含任何不强子集的项集。这一过程会导致产生更少数量的候选结果。

Apriori算法中的Apriori-gen函数是一个极优秀的生成候选项函数，它几乎生成了不可能再少的候选项集，也一直被后来的研究者引用。可以说Apriori-gen函数是Apriori算法的精华，其缺点是扫描数据库D次数很高，尤其是当数据库D非常大时，I/O量很大，会引起系统颠簸和性能降低。

AprioriTid算法根据记录编码Tid，对扫描数据库作了一些改进，尤其是当k较大时，生成Ck比原数据库D要小得多，大大提高了速度，但是当k较小，特别是候选项占所有项目的比较较大，这样生成的C 就比原数据库D要大得多，性能就极差，同样CPU与I/O的开销也非常大。

后来，A?Sowasere等人提出Paritition算法，这个算法对非常大的数据库较适合，减少了I/O开销。Paritition算法与以前的算法根本不同之处是它最多只需要读取数据库二次就能生成所有有意义的规则，而以前的处落地扫描数据库的次数能生成所有有意义的规则，而以前的算法扫描数据库的次数根本无法先确定，并且这个算法适合构成并行算法。它的基本思想是根据计算机的内存大小和数据库D本身的某些性能，对数据库D进行分区。算法一次读取是一个分区而不是一个记录，并对每个分区求强项集。然后把每个分区的强项集合在一起作为候选项集，再扫描数据库D，计算这些候选项集的支持度，确定强项集，它的理论依据是：对整个数据库D的任一强项集它必定会是至少某个分区的强项集。数据库D数据量越大，分区算法的优点就越明显。

Paritition算法的缺点也是很明显的：①如果数据库D中的数据性能不好，尤其是对交易数据库D，因为超市中商品的销售肯定与季节有关，如果分区方法刚好与某个季节和气候有关，那么在这个分区里强的项集，在其他分区里很有可能不强，这样生成的候选项集将是相当大，但对整个数据库D来说真正强的项集相对这个候选项集来说可能很小。这样在第二次扫描时将大大增加CPU和I/O的开销。对人事数据库也同样，对进人与退休的高峰期，数据库性能就不一定好，还有各种原因都不能保证数据性能很好；②大部分强项集在上次扫描时都已经在某些分区中计过数，但在第二次扫描时，这些信息都丢失了。这样就增加了CPU的开销；③当支持度较小时，算法的效果较差。

本文吸取了上述算法优点，结合人事数据库的特点，提出了Tid-optim（optimize algorithm by tidlist）算法。Tid-optim算法的特点是只扫描数据库D一次，计算所有的强一项集Ll，然后根据这次扫描产生的强项集的tidlist，迅速产生候选项集，并同时计算出它的支持度，从而大大地提高了速度。

扫描数据库D时，候选项集集合C1为所有的项集I，计算出所有强一项集L1，扫描时，除了对候选项集计数外，同时记下包含该候选项集记录的TID，存入该候选项集的tidlist中，tidlist中的条目数量就是这个候选项集的支持度。Support=/tidlist/（/tidlist/为tidlist中条目的数量），那么候选k+l项集并剪枝后，对产生这个候选k+l项集的两个强k项子集的tidlist进行交运算，得到这个候选k+l项集的tidlist。例如，对候选项集（abcd）和tidlist是通过（abc）的tidlist与（abd）的tidhst连接产生的，Tid-option算法如下：

while /Lk-1/≥ do {for-all 11∈lk-1

5 模式解释

当对所采集和整理的数据进行挖掘时，对于不同的最小支持度（minsup）和最小里信度（minconf）所得到的规则集是不同的。通过对minsup和minconf的调整，使规则逐步聚焦到真正感兴趣的关联上去。通过对所收集的几十所高校人事数据的实验，把minsup定为14.3％，minconf定为71.6％。发现所挖掘的关联规则结果对实际工作具有重要的指导意义。

参考文献：

[1]周军,欧阳一鸣,杨保俊,等.安徽省高校教职工信息管理分析系统的开发与应用[J].安庆师范学院学报（自然科学版）,2007,13(1): 40-43.

[2]黄梯云,李一军.管理信息系统（修订版）[M].北京：高等教育出版社,2000.

[3]周君毅,毛勇峰.上海市高校教职工信息系统的设计[J]. 上海工程技术大学学报, 2000, 14(2):123-131.

[4]吴仕毅,张昌应. 广东省高校教职工人事管理信息系统设计与实施方案简介[J]. 中山大学学报论丛,1997(3):131-134.

[5]郭树东,张伟, 沈永清等. 高等院校科技管理信息系统网络化的设计与实施[J].北方交通大学学报,2000, 24(3):126-130.

[6]冯玉琳,赵保华.软件工程——方法、工具和实践[M].安徽：中国科技大学出版社,1992.

收稿日期：2008-01-12

作者简介：程国建（1964-），男，陕西西安人，副教授职称，博士学位，研究方向：人工智能与专家系统；陈华（1978-），女，陕西西安人,学士学位，在读研究生，研究方向：网络安全及计算机技术。

相关热词搜索： 人事管理 数据库技术 高校研究

高校人事管理数据库技术应用初步研究

最新文章

热门文章