网站开发平台 运行平台,深圳市建设工程交易服务中心网站,买友情链接,晋城seoData Mining可分为三大类六分项来说明#xff1a; Classification和Clustering属于分类区隔类#xff1b; Regression和Time-series属于推算预测类#xff1b; Association和Sequence则属于序列规则类。 Classification是根据一些变量的数值做计算#xff0c;再依照结果作分… Data Mining可分为三大类六分项来说明 Classification和Clustering属于分类区隔类 Regression和Time-series属于推算预测类 Association和Sequence则属于序列规则类。 Classification是根据一些变量的数值做计算再依照结果作分类。计算的结果最后会被分类为几个少数的离散数值例如将一组数据分为 可能会响应 或是 可能不会响应 两类。Classification常被用来处理如前所述之邮寄对象筛选的问题。我们会用一些根据历史经验已经分类好的数据来研究它们的特征然后再根据这些特征对其他未经分类或是新的数据做预测。这些我们用来寻找特征的已分类数据可能是来自我们的现有的客户数据或是将一个完整数据库做部份取样再经由实际的运作来测试譬如利用一个大型邮寄对象数据库的部份取样来建立一个Classification Model再利用这个Model来对数据库的其它数据或是新的数据作分类预测。 Clustering用在将数据分群其目的在于将群间的差异找出来同时也将群内成员的相似性找出来。Clustering与Classification不同的是在分析前并不知道会以何种方式或根据来分类。所以必须要配合专业领域知识来解读这些分群的意义。 Regression是使用一系列的现有数值来预测一个连续数值的可能值。若将范围扩大亦可利用Logistic Regression来预测类别变量特别在广泛运用现代分析技术如类神经网络或决策树理论等分析工具推估预测的模式已不在止于传统线性的局限在预测的功能上大大增加了选择工具的弹性与应用范围的广度。 Time-Series Forecasting与Regression功能类似只是它是用现有的数值来预测未来的数值。两者最大差异在于Time-Series所分析的数值都与时间有关。Time-Series Forecasting的工具可以处理有关时间的一些特性譬如时间的周期性、阶层性、季节性以及其它的一些特别因素如过去与未来的关连性。 Association是要找出在某一事件或是数据中会同时出现的东西。举例而言如果A是某一事件的一种选择则B也出现在该事件中的机率有多少。例如如果顾客买了火腿和柳橙汁那么这个顾客同时也会买牛奶的机率是85%。 Sequence Discovery与Association关系很密切所不同的是Sequence Discovery中事件的相关是以时间因素来作区隔例如如果A股票在某一天上涨12%而且当天股市加权指数下降则B股票在两天之内上涨的机率是 68%。 Data Mining在各领域的应用非常广泛只要该产业拥有具分析价值与需求的数据仓储或数据库皆可利用Mining工具进行有目的的挖掘分析。一般较常见的应用案例多发生在零售业、直效行销界、制造业、财务金融保险、通讯业以及医疗服务等。 于销售数据中发掘顾客的消费习性并可藉由交易纪录找出顾客偏好的产品组合其它包括找出流失顾客的特征与推出新产品的时机点等等都是零售业常见的实例直效行销强调的分众概念与数据库行销方式在导入Data Mining的技术后使直效行销的发展性更为强大例如利用Data Mining分析顾客群之消费行为与交易纪录结合基本数据并依其对品牌价值等级的高低来区隔顾客进而达到差异化行销的目的制造业对Data Mining的需求多运用在品质控管方面由制造过程中找出影响产品品质最重要的因素以期提高作业流程的效率。 近来电话公司、信用卡公司、保险公司以及股票交易商对于诈欺行为的侦测Fraud Detection都很有兴趣这些行业每年因为诈欺行为而造成的损失都非常可观Data Mining可以从一些信用不良的客户数据中找出相似特征并预测可能的诈欺交易达到减少损失的目的。财务金融业可以利用Data Mining来分析市场动向并预测个别公司的营运以及股价走向。Data Mining的另一个独特的用法是在医疗业用来预测手术、用药、诊断、或是流程控制的效率。 一般而言Data Mining的理论技术可分为传统技术与改良技术两支。传统技术以统计分析为代表统计学内所含序列统计、概率论、回归分析、类别数据分析等都属于传统数据挖掘技术尤其Data Mining 对象多为变量繁多且样本数庞大的数据是以高等统计学里所含括之多变量分析中用来精简变量的因素分析Factor Analysis、用来分类的判别分析Discriminant Analysis以及用来区隔群体的分群分析Cluster Analysis等在Data Mining过程中特别常用。 在改良技术方面应用较普遍的有决策树理论Decision Trees、类神经网络Neural Network以及规则归纳法Rules Induction等。决策树是一种用树枝状展现数据受各变量的影响情形之预测模型根据对目标变量产生之效应的不同而建构分类的规则一般多运用在对客户数据的分析上例如针对有回函与未回含的邮寄对象找出影响其分类结果的变量组合常用分类方法为CARTClassification and Regression Trees及CHAIDChi-Square Automatic Interaction Detector两种。 类神经网络是一种仿真人脑思考结构的数据分析模式由输入之变量与数值中自我学习并根据学习经验所得之知识不断调整参数以期建构数据的型样(patterns)。类神经网络为非线性的设计与传统回归分析相比好处是在进行分析时无须限定模式特别当数据变量间存有交互效应时可自动侦测出缺点则在于其分析过程为一黑盒子故常无法以可读之模型格式展现每阶段的加权与转换亦不明确是故类神经网络多利用于数据属于高度非线性且带有相当程度的变量交感效应时。 规则归纳法是知识发掘的领域中最常用的格式这是一种由一连串的「如果…/则…If / Then」之逻辑规则对数据进行细分的技术在实际运用时如何界定规则为有效是最大的问题通常需先将数据中发生数太少的项目先剔除以避免产生无意义的逻辑规则。