??xml version="1.0" encoding="utf-8" standalone="yes"?>欧美激情精品久久久久久,国产精品女同一区二区久久,99久久国产宗和精品1上映http://www.shnenglu.com/inwind/category/519.htmlzh-cnTue, 20 May 2008 00:29:09 GMTTue, 20 May 2008 00:29:09 GMT60信息提取的基本概?/title><link>http://www.shnenglu.com/inwind/articles/1605.html</link><dc:creator>inwind</dc:creator><author>inwind</author><pubDate>Wed, 07 Dec 2005 08:24:00 GMT</pubDate><guid>http://www.shnenglu.com/inwind/articles/1605.html</guid><wfw:comment>http://www.shnenglu.com/inwind/comments/1605.html</wfw:comment><comments>http://www.shnenglu.com/inwind/articles/1605.html#Feedback</comments><slash:comments>0</slash:comments><wfw:commentRss>http://www.shnenglu.com/inwind/comments/commentRss/1605.html</wfw:commentRss><trackback:ping>http://www.shnenglu.com/inwind/services/trackbacks/1605.html</trackback:ping><description><![CDATA[信息提取(Information Extraction)的定义是指从一D|本中抽取指定的一cM息(例如事g、事实)、ƈ其QŞ成结构化的数据)填入一个数据库中供用户查询使用的过E?BR><BR>与其他信息处理技术的关系<BR>   信息?Information Retrieval) Q只是找出满一定检索条?query)的整文档或D落Q而h们仍然必阅L扑ֈ的每一个文档或D落才能获得所需要的信息?nbsp;<BR>   自动文摘、文本理?Q自动文摘和文本理解则没有预先规定目标的Ҏ,需要对多种多样的内容进行分析和处理?nbsp;<BR><BR> <div id="jrzbzd3" class=O style="mso-char-wrap: 1; mso-kinsoku-overflow: 1" v:shape="_x0000_s1026">信息提取的方针:识别实体Q确定关p?BR><BR>信息提取q到繁Q?BR>单个实体Q找出所有h名;扑և所有emailQ找出所有大?.....<BR>二元关系实体QXXX的电?地址Qemail)Q位于某地的所有公?....<BR>多元关系实体Q把所有报道恐怖活动的报道都找出来(IR)Qƈ按照事g的地?旉/参与?…分cR排序;<BR><BR>信息提取的基设施<BR>   词典、词切分和词性标?BR>制作一个规模适当、分U合理ƈ可灵z配|的词典是徏造中文信息提取系l的W一步;<BR>   适用于中文信息提取的短语句法及语义分?BR> 包括句法成分的识别与标引Q关键词提取Q检索特征集的提取、烦引等?BR>   适用于信息提取的句群分析与篇章表C?BR>q些技术包括表辑֏间成分的传递,指代、引用信息表的徏立和使用Q?this指针"Q当前语义焦点focusQ的l护Q以及概念关pȝ推理{?BR></DIV><img src ="http://www.shnenglu.com/inwind/aggbug/1605.html" width = "1" height = "1" /><br><br><div align=right><a style="text-decoration:none;" href="http://www.shnenglu.com/inwind/" target="_blank">inwind</a> 2005-12-07 16:24 <a href="http://www.shnenglu.com/inwind/articles/1605.html#Feedback" target="_blank" style="text-decoration:none;">发表评论</a></div>]]></description></item><item><title>知识发现与数据挖?/title><link>http://www.shnenglu.com/inwind/articles/1581.html</link><dc:creator>inwind</dc:creator><author>inwind</author><pubDate>Wed, 07 Dec 2005 02:39:00 GMT</pubDate><guid>http://www.shnenglu.com/inwind/articles/1581.html</guid><wfw:comment>http://www.shnenglu.com/inwind/comments/1581.html</wfw:comment><comments>http://www.shnenglu.com/inwind/articles/1581.html#Feedback</comments><slash:comments>1</slash:comments><wfw:commentRss>http://www.shnenglu.com/inwind/comments/commentRss/1581.html</wfw:commentRss><trackback:ping>http://www.shnenglu.com/inwind/services/trackbacks/1581.html</trackback:ping><description><![CDATA[<div id="9j1j1zd" class=diaryContent id=diary496335 style="DISPLAY: block"> <P>数据库中的知识发现kddQknowledge discovery in databasesQ和数据挖掘dmQdata miningQ是在需求的驱动下发展v来的一门新的技术。随着在政府部门、企事业单位、大型金融保险机构、大型商业机构、大型制造业及科研机构数据库的大量徏立,数据U篏成倍地急剧增长Q如何充分利用这些大量数?Ҏ据进行分析来指导生工作、运营工作、销售工作、竞争策? l领D的决策一些支持;另一斚wQ如何从大量数据中挖掘出有用的信息(模式Q和知识Q规律)Q挖掘出U学上的未知规律, 已成Zhc需要急切解决的问题。因此数据挖掘技术、知识发现系l就成ؓ当今计算机领域的研究和关注的热点之一?/P><BR> <P>随着数据U篏的增长,充分利用大量数据Q即Ҏ据进行分析来指导工作Q,q从大量数据中挖掘出有用的信息和知识Q找出未知的规律Q已成ؓ人类急需解决的问题。本文就数据挖掘技术、知识发现系l这一热点问题阐述其成功的关键、面临的问题及所采用的技术?BR><BR>  数据库中的知识发现kddQknowledge discovery in databasesQ和数据挖掘dmQdata miningQ是在需求的驱动下发展v来的一门新的技术。随着在政府部门、企事业单位、大型金融保险机构、大型商业机构、大型制造业及科研机构数据库的大量徏立,数据U篏成倍地急剧增长Q如何充分利用这些大量数?Ҏ据进行分析来指导生工作、运营工作、销售工作、竞争策? l领D的决策一些支持;另一斚wQ如何从大量数据中挖掘出有用的信息(模式Q和知识Q规律)Q挖掘出U学上的未知规律, 已成Zhc需要急切解决的问题。因此数据挖掘技术、知识发现系l就成ؓ当今计算机领域的研究和关注的热点之一?BR><BR>  随着kdd的深入发展和internet 的普及,|上信息的大量增加,许多信息在网上发布,QDQ在QPDQL上挖掘也形成了热点,qŞ成了Zinternet的web mining技术,web mining包括:web 内容挖掘Qwebl构挖掘Qweb 用户行ؓ挖掘Q当遇到的有文本、图形、图像等信息Q又形成了text mining和image miningQ多媒体挖掘{新的kdd的新方向?BR><BR><BR>  kddQ定义和q程<BR><BR><BR>  1?kdd的定?BR><BR>  许多研究者从不同的角度给Z有关kdd的定义,目前较一致认同的描述性定义是fayyad{hl出的:kdd是从数据集中识别出有效的、新颖的、潜在有用的以及最l可理解的模式的非^凡过E?BR><BR>  在上q定义中指出kdd是个q程Q是从数据集识别模式的过E,几个定语都是不可?BR><BR>  2、kdd的过E?BR><BR>  kddq程可分为数据准备、数据挖掘以及结果的解释评hQ如图所C?nbsp;<BR><IMG alt="datamining model graph" src="http://blog.blogchina.com/upload/2005-01-05/20050105094605555381.jpg" border=0><BR><BR>  图:kdd的主要过E?BR><BR>  Q?Q数据准备:数据准备可分为数据选取/抽样、数据预处理和数据{换?BR><BR>  Q?Q数据挖掘阶D:Ҏ数据挖掘的Q务,定采用哪一U数据挖掘算法。同L数据挖掘d可以用不同的数据挖掘法来实玎ͼ数据挖掘法的选择主要是根据以下两个方面的因素Q一是数据的特点Q二是用户和实际q行pȝ的要求。在完成了这些准备工作后Q就可以q行数据挖掘了。数据挖掘阶D仅占整个kddq程?5Q左右的工作量?BR><BR>  Q?Q结果解释和评hQ经数据挖掘所发现的模式,可能存在冗余或用户不感兴的模式Q这旉要将光去;也有可能所发现的模式不能满用L需要,要求整个发现q程再返回到数据挖掘阶段之前Q重新进行数据选取/抽样、数据变换和数据挖掘Q甚x一U挖掘算法(如在发现分类规则有多种数据挖掘Ҏ可供选择Q不同的Ҏ可能h不同的挖掘效果)?BR><BR><BR>  成功的关键与面的问?BR><BR><BR>  数据挖掘与知识发C是给Z些数据,采用一些数据挖掘算法就可以L地挖掘出知识Q数据挖掘与知识发现成功的关键必dC面几点:<BR><BR>  1?有明的目标Q用 kddҎ要解决什么问题,挖掘什么样的模式、规律或知识Q必L挖掘的目标。这一Ҏ能否挖掘出有用知识基点,不能_我给你一些数据,你给我挖掘出知识来,在给出数据后Q采用什么挖掘方法,怎样挖掘Q必d有明目标情况下q行Q盲目的挖掘使挖掘系l无法进行?BR><BR>  2?相对较长一D|间和相对准确的数据的U篏Q数据是知识发现的基Q数据的质量和数量对知识发现起决定性作用,不是随便l一些数据就能挖掘出有用的知识,数据必须有一定的质量和数量,在极不完整的数据上进行数据挖掘不会得到好的结果,往往数据质量和数量比数据挖掘Ҏ更重要?BR><BR>  3?领域专家的参与和指导Q从目标的明到挖到信息和知识的评h与判断都需要领域专家的指导Q否则知识的可信度和可靠性都值得怀疑?BR><BR>  kdd研究面的问题:<BR><BR>  kdd是一个新兴的研究领域Q目前还处在发展的阶D,q有很多的研I题有待解冻I数据的巨量性、动态性、多h、不一致性、噪声性、缺值和E疏性、发现模式的可理解性、兴度{都lkdd带来隑ֺQ数据质量、算法的有效性,知识的可用性都是研I的NQkdd与应用系l的集成Qkdd与用L交互Q知识的更新理Q复杂数据类型的处理{等都是kdd研究面的挑战?BR><BR><BR>  crisp—dm?BR><BR><BR>  crisp-dm - cross industry standard process for data mining 是ncr{四家公司联合的研究目Q?997q开始,1999q?月已l出一个初步约100늚报告Q在此对其只作简单介l? 它将kddq程分ؓ下列几个步骤Q?BR><BR>  1?business understandingQ在q行数据挖掘d旉先要从企业的角度来了解Q务的目标和要求,然后这些目标和要求体现在数据挖掘的问题定义中和到这个目标所设计的初始的计划中?BR><BR>  2?data understandingQ了解数据首先从攉数据开始,Z证数据质量,为对数据的深ȝ解和为筛选出感兴数据集Q在其深ȝ解数据的基础上,应不断收集相cM的数据,以便形成L隐藏信息的假设?BR><BR>  3?data preparationQ数据准备阶D包括从初始的粗数据不断形成适合数据挖掘模型的最后数据的全过E,包括数据表格、记录、属性的选择Q数据的转换和数据清理。这工作要多次完成?BR><BR>  4?modelingQ在q阶D各U数据挖掘方法模型被选择和应用;模型的参数被校准到最佛_{有许多数据挖掘Ҏ可适应同一数据cdQ有些数据挖掘方法对数据有特定要求。有时这阶段q会q回到数据准备阶Dc?BR><BR>  5?evaluationQ从数据分析人员的观点看Q所选模型有相当高的质量Q在最后应用推q时Q必L加彻底地评hq个模型Q看看ؓ构成该模型所执行的各个步骤能否达C业要求的目标Q更重要的是企业的关键问题有没有充分考虑到?BR><BR>  6?deploymentQ一般来? 产生挖掘的模型ƈ不是d的结? 虽然挖掘得到了知?但知识需要组l和呈现l用?使用户可以很好用q些知识。是否采用和推广使用q种模型一般由用户来进行决定,而不是分析h员来q行军_?BR><BR><BR>  采用的几U技?BR><BR><BR>  Ҏ数据采掘所采用的技术大致分为:l计Ҏ、机器学习方法、神l网l方法和数据库方法。统计方法主要包括:回归分析Q多元回归、自回归{)、判别分析(贝叶斯判别、费歇尔判别、非参数判别{)、聚cd析(pȝ聚类、动态聚cȝQ、探索性分析(d分析法、相兛_析法{)、贝叶斯Ҏ(贝叶斯网l? 贝叶斯分cd{?。机器学习主要包括:归纳学习ҎQ决{树、规则归U뀁面向属性的归纳Ҏ{)、基于事例的学习、遗传算法等, 经|络Ҏ。数据库Ҏ主要是多l数据分析或olapҎQ此外还有模p方?_糙集方法和可视化方法。由于篇q所限,本文仅就几种常用的数据挖掘技术进行说明?BR><BR>  1?决策树归Ux?BR><BR>  在数据挖掘中最怋用的Ҏ是决策树方?它属于归U_习方法。它的基本想法是Q给一l用属性描q的训练例,然后按属性(|构造一|Q二叉或多叉树)Q从根节点到叶节点一条规则,叶节点就是一个类Q由q棵树(或由q棵树Ş成的规则集)对另一l测试例q行分类Q或Q预。这|是知识?BR><BR>  决策树归Ux法主要有两个问题Q一是先从哪一属性往下分叉,既特征选择问题Q或U偏向问题)Q二是如何构造一??的树Q树剪枝问题Q。ؓ解决前一问题研究多方法;最有代表性的是id3Q改q的c4.5, c5.0Q,该方法用信息熉|扑և最大增?gain most information)作ؓ构造树的依据。剪枝一般说来有两种{略Q向前剪枝(forward pruningQ和向后剪枝Qbackward pruningQ。许多hl出各种剪枝ҎQ究竟采用什么剪枝法Q视问题而定?BR><BR>  决策树方法的优点是速度快,直观可理解,所以被q泛采用Q但׃它是归纳学习ҎQ它有两个弱点:树不唯一且不永真。一般来说精度也不太高。ؓ了提高精度,q年来发展v来的bagging和boosting Ҏ取得较好的效果。在选择特征上也有h提出信息熵之外的ҎQ也有h提出多属性方法,树往下分叉不是用一个属性,而用多个属性,既多属性(变量Q决{树?BR><BR>  2?兌规则的发?BR><BR>  兌规则挖掘问题的提出:在大型零售商店或市场Q存储了大量的销售记录,q些销售记录又UCؓ货篮数据Qbasket dataQ。货数据保存了֮在一ơ购C所涉及的商品的详情Q如商品名称、h根{数量等Q,我们UCZ务。数据库仅存大量的事务,决策者们想从q些数据中发现有用的信息Q指g们的营销zd。在q样的应用背景下Q生了兌规则挖掘法Q用来从事务数据库中发现有关客户购买行ؓ的知识,֮购买一些商品与另一些商品的关系Q称之ؓ兌规则。以后关联规则又被广泛应用到其他领域。在此我们介l关联规则的一些定义,对算法不作介l?BR><BR>  定义1Q关联规则挖掘的事务数据库ؓdQ?d中的每个元组Q纪录)UCؓ事务tQd中所有属性称目集iQi={i1,i2,...im} i 是一个项?m是d中的所有项目数, 一条事务t是i中项目的集合Q即t i?BR><BR>  定义2: L的项目集x和事务t若满It xQ则UC务t包含目集x?BR><BR>  L的项目集y和事务t若满It y Q则UC务t包含目集y ?BR><BR>  在超U市场的兌规则挖掘问题中项目集可以看成一个或多个商品的集合,与某֮一ơ购买对应的事务t包含目集x(或y)Q也是说该֮在这ơ购物中购买了项目集x(或y)中的所有商品?BR><BR>  定义3: 兌规则是Ş如x y的规则,其中x、y为项目集且x∩y= ?BR><BR>  表示֮中购Cx中的所有商品,又购Cy中的所有商品?BR><BR>  定义4:若数据库d? s%的事务包含x∪y则关联规则x y的支持率为s%Q若包含目集x的事务有c%的也包含目集yQ则兌规则x y的置信度为c%?BR><BR>  3?_糙?rough set)理论<BR><BR>  _糙?rough set)理论是一U新型的处理模糊和不定知识的数学工兗自1982q由波兰数学家pawlak首次提出以来Q经q十几年的研I与发展Q已l在理论和实际应用上取得了长的q展Q特别是׃八十q代末和九十q代初在知识发现{领域得C成功的应用而受到国际上q泛x。目前,它已l在人工、知识发现、模式识别与分类、故障检等斚w得到了较为成功的应用。粗p集理论h一些独特的观点Q这些观点得粗p集特别适合于进行数据分析?_糙集理为知识的_度性是造成使用已有知识不能_地表C某些概늚原因?通过引入不可区分关系作ؓ_糙集理论的基础, q在此基上定义了上下q似{概? _糙集理够有效地Dq些不精概c有了上、下q似和不可分关系的概忉|们就能够定义U简和核q两个对kdd有很大作用的概念。和模糊集合需要指定成员隶属度不同, _糙集的成员是客观计的, 只和已知数据有关, 从而避免了主观因素的媄响?BR><BR>  4?贝叶斯网l?BR><BR>  八十q代贝叶斯网l成功地应用于专家系l,成ؓ表示不确定性专家知识和推理的一U方法。九十年代以来,研究者们q一步研I了直接从数据中学习q生成贝叶斯|络的方法,叶斯|络用于数据采掘和知识发现开辟了新途径。这些新的方法和技术还在发展之中,但已在一些数据徏模问题中昄Zo人瞩目的效果。与其它用于数据采掘的表C法如规则库、决{树、h工神l网l相比,Z贝叶斯方法的贝叶斯网l有如下特点Q适合处理不完整数据集问题Q可以发现数据间的因果关p,可以l合先验信息Q领域知识)和样本信息,在样本难以获得或者代价高昂时特别有用。可以预见,在数据采掘和知识发现中,贝叶斯网l将成ؓ一个有力的工具。贝叶斯|络臛_可以解决如下四个斚w的问题。其一是贝叶斯|能够真正地处理h不完整的数据集合Q其二是贝叶斯网能够获得因果联系Q其三是贝叶斯网能够更有机和充分地结合和利用已有的知识和观测数据q行学习和预;其四是贝叶斯|络l合其它一些方法可以有效地避免数据的过度拟合?/P></DIV><img src ="http://www.shnenglu.com/inwind/aggbug/1581.html" width = "1" height = "1" /><br><br><div align=right><a style="text-decoration:none;" href="http://www.shnenglu.com/inwind/" target="_blank">inwind</a> 2005-12-07 10:39 <a href="http://www.shnenglu.com/inwind/articles/1581.html#Feedback" target="_blank" style="text-decoration:none;">发表评论</a></div>]]></description></item><item><title>从三个角度看数据挖掘zzhttp://www.shnenglu.com/inwind/articles/1582.htmlinwindinwindWed, 07 Dec 2005 02:39:00 GMThttp://www.shnenglu.com/inwind/articles/1582.htmlhttp://www.shnenglu.com/inwind/comments/1582.htmlhttp://www.shnenglu.com/inwind/articles/1582.html#Feedback0http://www.shnenglu.com/inwind/comments/commentRss/1582.htmlhttp://www.shnenglu.com/inwind/services/trackbacks/1582.htmlhttp://cs.nju.edu.cn/people/zhouzh/zhouzh.files/publication/aij03.pdf
我觉得这文章可以解{我们前面提到数据挖掘与机器学习和统计之间的关系?br>Zl没有时间读的h一个大略的了解Q我摘要翻译一下(加了我的理解Q?br>Q如果有疑惑q请d原文后再对他的文章作评论?br>Q本文不当之处,敬请指出Qؓ了我Q也Z大家。)

1.本文介绍了从DBQDatabaseQ、MLQmachine learningQ和STQStatisticalQ?br>三个角度研究DMQDataminingQ的特点?br>q个特点是DB注重挖掘的efficency效率、ML注重挖掘的effectiveness效果?br>ST注重挖掘的validation有效性?br>
2.他的q个观点是通过对三本书的评q来阐明?br>三本书是a.J.Han and M.Kamber's Datamining: Concepts and techniques
从数据库角度来写?br>b. I. H. Witten and E. Frank's Datamining:practical machine learning tools
and techniques with java implementations 从机器学习角度写?br>c.D. Hand, H. Mannila, and P. Smyth, principles of Datammining
从统计的角度写的?br>
3.讨论q三本书的写作思\之前Q要了解DM跟KDDQknowledge discovery in databases)
关系。Han的书是认为DM{同于KDDQ所以整本书从从一个数据库pȝ的角度来写,
注重pȝ的完整性和效率。认为在数据库之外的法很少考虑效率?Witten的书认ؓ
DM是KDD的一个环节,书中x法Q所以更注重实际应用效果。而Hand的书?br>认ؓDM是KDD的一个核心环节,从数学角度,更注重数据挖掘的有效性?br>关于DM跟DB、ML和ST的关p,DB跟DM、ML、ST的区别是明显的,而ML、ST跟DM的区?br>在于data volume bing processedQ数据量Q-GzLiQ,ML跟ST的区别是
研究Ҏ领域的不同,ML理论与实늻合,ST比较注重理论。但是ST在数据挖掘中
q是占有重要基础C的?br>
4.对于三本书,周认为han的书适合作教材,witten的书适合做主要读物,?br>hand的书是高U读物?br>
5.只从q三本书得Zq观点,有些不充分,但是是一个尝试?br>

inwind 2005-12-07 10:39 发表评论
]]>
þ޾Ʒ벥| þþþþùƷ볬| 99þþƷëƬ| ݾþþù| þAV߳AVAV| 99þþƷۺһ| þþù99þùһ| þþƷĻþ| ɫúݺݾþۺ| Ʒþþþþ֣ݹ˾| 99þѹƷ| պƷþþþþ| ҹƷþӰԺ| þþƷƷ| ɫվwwwþþ| ʵҶ԰׾ʾþ| þһҹ| þþþ99ƷƬ| þó˹Ʒ| þۺϳDž| þþþֻоƷ | þþþùһ| һһþۺϺݺ| ľþۺĻ| 㽶þһ޶ӰԺ| þþþAvר| ޹˾þһҳ| þþþӰԺС| 97þþþ| ŷսþþþþþþ| ԾþþӰԺ| ҹƷþþþþӰ777| ޳˾þ| ۺϾþúݺɫ99h| 69þþƷһ| ŷһþ| ɫվwwwþþ| Ʒþþ21p| 뾫ƷþþӰ| þþAVɫۺ| ޾Ʒھþ|