当前位置: 首页 > news >正文

佛山网站快速优化排名平台线上推广策略怎么写

佛山网站快速优化排名,平台线上推广策略怎么写,珠海市网站建设企业,更改域名代理商对网站有影响吗速通 数据挖掘课程 大的分类 标签预测#xff08;分类#xff09; 和 数值预测#xff08;预测呀#xff09; 监督 非监督 是否 需要预先训练模型 然后预测 聚类#xff1a;拿一个比一个#xff0c;看看相似否#xff0c;然后归一类 数据四种类型 数据属性有四种分类 和 数值预测预测呀 监督 非监督 是否 需要预先训练模型 然后预测 聚类拿一个比一个看看相似否然后归一类 数据四种类型 数据属性有四种标称属性、序数属性、区间标度属性、比率标度属性 标称属性的值代表某种类别、编码或状态不必具有有意义的序。二进制属性是一种特殊的标称属性只有两个类别或状态有对称的和非对称的 序数属性具有有意义的序但连续值之间的大小是未知的例如学生的成绩可以分为优、良、中、差四个等级 区间标度属性用相等的单位尺度度量值是有序的比如日期和温度。区间标度属性不存在零点倍数没有意义比如我们不会说2000年是1000年的两倍。 比率标度属性是具有固定零点的数值属性有序且可以计算倍数如长度、重量。 分这个是为了后面在看到不同类型的数据采用不同类型的方法 箱式图 数据可视化 箱线图分析多个属性数据的离散度差异性 直方图分析单个属性在各个区间的变化分布 散点图显示两组或多组数据的相关性分布。 相似度 相似度Similarity 度量两个数据对象有多相似值越大就表示数据对象越相似通常取值范围为 [0,1] 相异度Dissimillarity 度量两个数据对象的差别程度值越小就表示数据越相似最小相异度通常为0 邻近性Proximity 指相似度或者相异度 非对称的数据 只考虑那些生病的 相似性 聚类 推荐 user-images\1640413985821.png) 上确界距离是指每个属性数据差值绝对值的最大值 标称属性相异度属性总数-匹配次数/属性总数 二进制属性根据邻接表计算非对称相似度杰卡德系数 区间闵可夫斯基距离h1曼哈顿距离h2欧氏距离h3上确界距离 处理方法 丢失数据忽略元组、手动填写遗漏值、自动填写 噪声数据利用盒状图检测离群数据删除离群点 不一致数据计算推理、替换 空缺值代码实现 卡方测试用来看两个离散数据特征相关性大不大的 列一下联列表然后 450*300/150090 90就是期望 最后观测值和期望代入算出来这个值越大说明这两个特征相关性越大。 连续属性的相关性评测 注意模式集成、实体识别、数据冲突检测 关于数据冗余使用相关性来解决 离散型数据卡方测试 连续性数据皮尔逊相关系数、协方差 降维 数据规约方法类似数据集的压缩它通过维度的减少或者数据量的减少来达到降低数据规模的目的数据压缩Data Compression有无损与有损压缩。方法主要是下面两种 维度规约Dimensionality Reduction减少所需自变量的个数。代表方法为WT、PCA与FSS。 数量规约Numerosity Reducton用较小的数据表示形式替换原始数据。代表方法为对数线性回归、聚类、抽样等。 又可以从这个角度来看 数据复杂性较高采用主成分分析法降维 时间开销大采用有放回或无放回的简单随机抽样来降数据降低时间开销 存储开销大通过降低数据质量来降低数据规模 数据转化 1.数据规范化将数据按比例缩放到一个具体区间 方法最小-最大规范化、Z-得分正常化、小数定标规范化 2.离散化部分数据挖掘算法只适用于离散数据 方法等宽法、等频法、聚类法 关联规则 sup conf 支持度Support。支持度表示项集{X,Y}在总项集里出现的概率。表示A和B同时在总数I中发生的概率。Support(X-Y) P(X,Y) / P(I) P(X∩Y) / P(I) num(X∩Y) / num(I)。 置信度 Confidence。置信度表示在先决条件X发生的情况下由关联规则”X→Y“推出Y的概率。表示在发生X的项集中同时会发生Y的可能性即X和Y同时发生的个数占仅仅X发生个数的比例。Confidence(X-Y) P(Y|X) P(X,Y) / P(X) P(X∩Y) / P(X)。 基础算法 依据支持度找出所有频繁项集。 找出频繁一项集的集合该集合记作L1。L1用于找频繁二项集的集合L2。如此下去直到不能找到频繁K项集。找每个Lk都需要一次数据库扫描。核心思想是连接步和剪枝步。连接步是自连接原则是保证前k-2项相同并按照字典顺序连接。剪枝步由先验原理如果某个候选的非空子集不是频繁的那么该候选肯定不是频繁的从而可以将其删除。依据置信度产生关联规则。对于每个频繁项集L产生L的所有非空子集。对于L的每个非空子集S如果PL/PS大于最小置信度则生成规则L-S。 Apriori原理简介 如果一个项集是频繁的则它的所有子集一定也是频繁的。相反如果一个项集是非频繁的则它所有的超集也是非频繁的。 此原理基于支持度的反单调性(anti-monotone)一个项集的支持度绝不会超过它的子集的支持度。 基于此原理我们就能对项集进行 基于支持度的剪枝(support-based pruning)不用计算支持度就能删除掉某些非频繁项集。 于是便出现了基于先验原理的Apriori算法。 贝叶斯 逻辑斯特回归 正则化 是为了 让w别那么大不然会让扰动变大 L1 会让w取值要么是1 要么是0 稀疏编码——适合降低纬度很多都是0 L2 岭回归 概率意义 正则化理论就是用来对原始问题的最小化经验误差函数损失函数加上某种约束这种约束可以看成是人为引入的某种先验知识(正则化参数等价于对参数引入先验分布)从而对原问题中参数的选择起到引导作用因此缩小了解空间也减小了噪声对结果的影响和求出错误解的可能使得模型由多解变为更倾向其中一个解。 数值优化 熵 只能算离散的 求对数 开销大 所以 推出来 GINI指数也是计算纯性的 启发式算法 例如它常能发现很不错的解但也没办法证明它不会得到较坏的解它通常可在合理时间解出答案但也没办法知道它是否每次都可以这样的速度求解 k-均值算法的基本原理是什么 1 K-means算法首先需要选择K个初始化聚类中心 2 计算每个数据对象到K个初始化聚类中心的距离将数据对象分到距离聚类中心最近的那个数据集中当所有数据对象都划分以后就形成了K个数据集即K个簇 3接下来重新计算每个簇的数据对象的均值将均值作为新的聚类中心 4最后计算每个数据对象到新的K个初始化聚类中心的距离重新划分 5每次划分以后都需要重新计算初始化聚类中心一直重复这个过程直到所有的数据对象无法更新到其他的数据集中。 优点1原理简单收敛速度快;2只需要调整k这一个参数;3算法的原理简单可解释性好 缺点1离群点和噪音点敏感;2难确定k值;3类别距离近k-means的效果不太好;4初始值对结果影响较大可能每次聚类结果都不一样;5结果可能只是局部最优而不是全局最优。 选K 1、把样本的二维、三维散点图画出来观察一下样本的分布然后再决定k的值。如果维度大于三维可以使用PCA降维到三维。 2、使用轮廓系数Sihouette Coefficient判断。 肘部法肘部法所使用的聚类评价指标为数据集中所有样本点到其簇中心的距离之和的平方。但是肘部法选择的并不是误差平方和最小的k而是误差平方和突然变小时对应的k值。 轮廓系数法轮廓系数是一种非常常用的聚类效果评价指标。该指标结合了内聚度和分离度两个因素。
http://www.zqtcl.cn/news/115295/

相关文章:

  • 怎么做微商网站怎么生成网站源代码
  • 建设网站怎么设置网站页面大小外贸原单童装哪个网站做
  • 网站布局设计软件太原专业做网站
  • 织梦教育培训网站源码素材图下载
  • 内容网站外贸网站外贸网站建设行吗
  • 什么是网络营销定义北京网站关键词优化
  • 开奖视频网站开发成都优化官网公司
  • 网站开发培训学校互联网软件外包平台
  • 房屋网签查询系统官方网站建设网站总经理讲话范本
  • 创建网站好的平台罗湖网站建设优化
  • 青海兴远建设工程有限公司网站wordpress怎么设计网站
  • 泉州建站公司模板马云谈2025的房价
  • 动漫制作专业什么电脑最适合沈阳关键词优化报价
  • seo企业网站源码虚拟主机如何建设多个网站
  • 电商 网站模板借钱软件推广微信hyhyk1
  • 免费网站模板psd建网站程序工具
  • 企业建设网站专业服务网站设置文件夹权限
  • 用ip做网站威海市城乡建设局网站
  • 网页网站开发设计工作前景做网站 兼职
  • c 网站开发类似优酷乐山旅游英文网站建设
  • 网站空间租用哪家好小程序免费制作平台企业中心
  • 个人网站可以做哪些主题网站别人做的收到方正侵权
  • 网站seo最新优化方法网络营销做的好的企业
  • 做网站如何防止被坑做的网站第二年续费多钱
  • 做网站注意哪些方面聊城住房建设局网站
  • ftp wordpress 搬站太仓做网站公司
  • php美食网站开发背景天津微外卖网站建设
  • 如何建造企业网站北京金山办公软件公司
  • dedecms织梦搬家公司网站模板贵阳国家经济技术开发区门户网站
  • 网站架构设计师网络工程师的就业前景