• 图纸下载
  • 专业文献
  • 行业资料
  • 教育专区
  • 应用文书
  • 生活休闲
  • 杂文文章
  • 范文大全
  • 作文大全
  • 达达文库
  • 文档下载
  • 音乐视听
  • 创业致富
  • 体裁范文
  • 当前位置: 达达文档网 > 教育专区 > 正文

    [从数据中发现不确定性知识研究] 数据不确定性

    时间:2019-02-03 04:36:22 来源:达达文档网 本文已影响 达达文档网手机站

      摘要: 从数据中发现不确定知识并进行量化一直是研究的难点,在阐述不确定性知识概念的基础上,λ构造叠加算子,并应用该算子从实际例子中发现不确定性知识,从结果可以看出,该算法得到的不确定知识可靠性较高。
      Abstract: It has been difficult to find uncertainty knowledge from date and quantify them,based on elaborating the concept of uncertain konwledge,λ structure stacked the operator. And it found uncertainty knowledge from actual examples applying the operator. Finally,from the results,we can see the algorithm can get more reliable uncertainty knowledge.
      关键词: 数据挖掘;不确定性;知识表示;知识处理
      Key words: data mining;uncertainty;knowledge representation;knowledge processing
      中图分类号:TP183 文献标识码:A文章编号:1006-4311(2010)05-0154-03
      
      0引言
      当今是一个数据泛滥的时代,虽然我们能从大量的数据中来获取知识,并用得到的知识进行决策和预测等工作,但从庞大数据中获得的知识是匮乏的,由于现实世界中客观事物或现象的不确定性,导致了人们在认识领域中的信息和知识大多是不精确的,知识真正是,并永远是不确定的[1]。
      1数据与知识
      数据是客观事物的符号表示,它被看作自然对象,其主要形态有数字、符号、图形、图像、声音数据,主要组织有结构化、半结构化和非结构等。
      知识是人类(或系统)对信息(数据)加工后产生的高级产品,知识可以表示成各种形式:规则、科学规律、方程或概念网。主要有两类知识的来源,首先是经验知识(专家知识),主要是针对特定领域的问题求解,不仅依赖于特定领域确定的理论知识,而且更多地依赖于专家的经验和常识。由于现实世界中客观事物或现象的不确定性,导致了人们在各认识领域中的信息和知识大多是不精确的,这就要求专家系统中知识的表示和处理模式能够反映这种不确定性。其次的知识来源是数据中挖掘的知识,其主要对象是数据,面临的问题是怎样通过推理发现数据中隐藏的知识,以便提供决策,主要的手段是通过不确定性方法(模糊集、粗糙集、概率、信息熵等)来获得数据中的知识。
      2知识发现
      知识发现是指从数据集中抽取和精炼有用的模式。
      2.1 知识发现的任务
      数据总结:对数据进行总结与概括。传统的最简单的数据总结方法是计算出数据库的各个字段上的求和值、平均值、方差值等统计值或者用直方图、饼状图等图形方式表示。
      聚类:根据数据的不同特征,将其划分为不同的类,属于无导师学习。
      分类:根据分类模型对数据集合分类,即将给定对象划归于某个类。分类(Classification)是知识发现中一项非常重要的任务,是一种有指导的学习(机器学习中的称谓)。
      偏差分析:基本思想是寻找观察结果与参照量之间的差别。通过发现异常, 可以引起人们对特殊情况的加倍注意。
      建模:构造描述一种活动或状态的数学模型(如贝叶斯模型)。
      2.2 问题的不确定性
      随机性:主要用概率论来揭示随机现象的统计规律性。
      模糊性:主要用模糊集和粗糙集来揭示模糊现象的规律性。
      随机性和模糊性是不确定性的两个方面,确定性可以被看作是不确定性的特例。
      2.3 知识发现的方法
      知识发现方法主要有:传统方法(回归分析、聚类分析等);模糊集方法;粗糙集方法和机器学习(规则归纳、决策树、范例推理、支持向量机、神经网络、贝叶斯信念网络等)。下面介绍粗糙集方法的应用。
      3粗糙集的应用
      3.1 粗糙集简介
      粗糙集作为一种处理不精确(imprecise)、不一致(inconsistent)、不完整(incomplete)等各种不完备信息的有效工具,一方面得益于他的数学基础成熟、不需要先验知识;另一方面在于它的易用性。由于粗糙集理论创建的目的和研究的出发点就是直接对数据进行分析和推理,从中发现隐含的知识,揭示潜在的规律,因此是一种天然的数据挖掘或者知识发现方法,它与基于概率论的数据挖掘方法、基于模糊理论的数据挖掘方法和基于证据理论的数据挖掘方法等其他处理不确定性问题理论的方法相比较,最显著的区别是它不需要提供问题所需处理的数据集合之外的任何先验知识,而且与处理其他不确定性问题的理论有很强的互补性(特别是模糊理论)。 基于粗糙集的方法可用于:近似推理、信息检索、机器学习和数据挖掘等。
      3.2 属性约简
      3.2.1 基本概念
      设,U:为非空对象集,称为论域。R:为U 上的等价关系,且其具有以下性质。
      自反性:(a,a)∈R;
      对称性:if(a,b)∈R,then(b,a)∈R
      传递性:if(a,b)∈R,(b,c)∈R,then(a,c)∈R
      由U上的等价关系R定义U上的划分,每个划分块称为等价类。U/R定义为由R导出的等价类。[x]R定义为包含对象x的等价类。
      例1:设U={x1,x2,…,x8}为积木集。
      设 R1:颜色(红,黄,蓝)
      R2:形状(方,圆,三角)
      R3:体积(大,小)
      那么:U/R1={红(x1,x2,x7),蓝(x4,x5),黄(x3,x6,x8)}
      U/R2={圆(x1,x5),方(x2,x6),三角(x3,x4,x7,x8)}
      U/R3={大(x2,x7,x8),小(x1,x3,x4,x5,x6)}
      设U为论域,R={R1,R2,R3}是U上的等价关系簇,则{R1,R2,R3}的交也是等价关系,记为Ind(R)。
      定义1:设R={R1,…,Rn}。若U/ind(R)=U/ind(R-{Ri}),则Ri称为R上的冗余关系。
      定义2:设P,Q是两个等价关系,且Q?哿P。如果Q中没有冗余关系且U/ind(P)=U/ind(Q),称Q是P的约简。
      定义3:设 P 和 Q是两个等价关系。Q 依赖于P,记为P?圯Q,当且仅当U/ind(P)?哿U/ind(Q)。
      定义4:Q对 P的依赖度记为d(P?圯Q),d(P?圯Q)=|POSP(Q)|/|U|,其中POSP(Q)称为P关于Q的正域,即P中被包在Q中的对象,|U| 是U中对象数,|POSP(Q)|是P中被包在Q中的对象数。
      3.2.2 属性约简的应用
      例2:设有如表1所示的病历表。
      U=(e1,e2,…,e8)是对象集(病人),A={A1,…,A4} 是U上的属性集。C=(A1,A2,A3)称为条件属性,D=(A4)称为决定属性。
      则:
      U/A1={(e1,e2,e3),(e4,e5,e6,e7,e8)}
    本文为全文原貌 未安装PDF浏览器用户请先下载安装 原版全文   U/A2={(e1,e2,e3,e4,e6,e8),(e5,e7)}
      U/A3={(e1,e4),(e2,e5,e7),(e3,e6,e8)}
      U/ind(A1,A2,A3)={(e1),(e2),(e3),(e4),(e5,e7),(e6,e8)}
      U/ind(A1,A3)={(e1),(e2),(e3),(e4),(e5,e7),(e6,e8)}
      (A1,A3)是C的约简,我们可以删去表中的A2属性。
      3.3 属性依赖的应用决策属性对条件属性的依赖度,是条件属性重要程度的衡量。在评价某属性的重要程度时,除要依据本属性(单一属性)的重要程度,还要依据该属性与其他属性构成的属性集的重要程度。目前,绝大多数文献对依赖度的研究,限于求解单一属性依赖度,认为单一属性依赖度为0的属性对决策表并无贡献,在约简时将其舍弃。然而,通过研究得知,把单一属性依赖度为0的属性删除,往往会造成知识的丢弃。因此,研究两个或两个以上属性构成的属性集依赖度,具有更加重要的意义。下面我们从聚类、关联度确定和关联度叠加对植物分布的实际例子进行研究。关于聚类,可以采用模糊聚类等方法,这里我们主要关注关联度确定和关联度叠加。
      3.3.1 关联度确定
      例3:植物分布表(表2)
      根据表2有,样本集T={t1,t2,…,t8},属性集C={A1,A2,A3}为条件属性,D={B1,B2,B3}为决定属性集,A1的值域dom(A1)={a1,a2,a3},A2的值域dom(A2)={b1,b2,b3,b4},A3的值域dom(A3)={c1,c2,c3}
      3.3.1.1 基于Ai的T的划分直观地,基于属性A1可将T分为:{(t1,t2),(t3,t4,t5,t6),(t7,t8)},基于Ai的T的划分记为 IND(Ai)。
      将IND(Ai)中第K个等价类记为Ajk,IND(A1)={A11(t1,t2),A12 (t3,t4,t5,t6),A13(t7,t8)}。Ajk和Bnm的交记为Pos(Ajk,Bnm),Pos(Ajk,Bnm)中对象数目记为|(Pos(Ajk,Bnm))|,则有:
      IND(A1)={A11(t1,t2),A12(t3,t4,t5,t6),A13(t7,t8)}
      IND(A2)={A21(t1),A22(t2,t7,t8),A23(t3,t4),A24(t5,t6)}
      IND(B1)={B11(t1,t2,t3,t4,t7),B12(t5,t7),B13(t6)}
      IND(B2)={B21(t1,t2,t4,t8),B22(t3,t5,t6),B23(t7)}
      IND(B3)={B31(t1,t2,t3,t7,t8),B32(t4,t5),B33(t6)}
      Pos(A11,B11)={t1,t2} |(Pos(A11,B11))|=2
      Pos(A11,B12)={Φ}|(Pos(A11,B12))|=0
      3.3.1.2 关联度假定 a1:气根,f1:半潮湿,f2:干旱,f3:潮湿。直观地,a1只生活f3地区,说明a1与潮湿环境联系密切。a1生活在f3地区,同时能生活在f2和f1地区,说明a1与潮湿环境没什么联系。
      考察f1时:
      f2相对于f1的贴近程度记为SP(f1,f2),SP(f1,f2)是f2相对于f1的权,记为w12,当然W11=SP(f1,f1)=1。
      定义5(关联度定义):Ajk对Bnm的关联度记为λ(Ajk,Bnm),λ(Ajk,Bnm)=|(pos(Ajk,Bn1)|*w1+|(Pos(Ajk,Bn2)|*w2+…+|(pos(Ajk,Bnm))|*wm]/|(Ajk)| 。
      考察λ(A12,B22),其中A12=a2, B22=f2,(即深根植物(a2)与降水少地区(f2)的关系,表3)。
      设w1=SP(f1,f2)=0.4,w2=SP(f2,f2)=1,w3=SP(f3,f2)=0,由表3可以看到a2分布于f2地区有3个对象,分布于f1有1个对象,分布于f3有0个对象。
      则有λ(A12,B22)=|(Pos(a2,f1)|*w1+|(Pos(a2,f2)|*w2+|(Pos(a2,f3)|* w3]/4=(1*0.4+3*1+0*0)/4=3.4/4=0.85
      3.3.1.3 λ的折叠算子关联度λ∈[0,1],希望将其扩展到[-1,1],设μ(Aij,Bnm)=(λ(Ajk,Bnm)-0.5)/0.5 即对λ进行平移和放大。00,μ2>0thenμ1?茌μ2>max(μ1,μ2)
      │μ1?茌μ2│?燮1
      if μ10∧μ20∧μ2>0)or(μ1>0∧μ2│μ2│)0(μ1>0∧μ2 本文为全文原貌 未安装PDF浏览器用户请先下载安装 原版全文

    相关热词搜索: 不确定性 发现 知识 数据

    • 生活居家
    • 情感人生
    • 社会财经
    • 文化
    • 职场
    • 教育
    • 电脑上网