当前位置: 首页 > news >正文

追波设计网站个人博客网站开发毕业设计

追波设计网站,个人博客网站开发毕业设计,wordpress目录的绝对路径,wordpress 调用 api接口⭐️⭐️⭐️⭐️⭐️欢迎来到我的博客⭐️⭐️⭐️⭐️⭐️ #x1f434;作者#xff1a;秋无之地 #x1f434;简介#xff1a;CSDN爬虫、后端、大数据领域创作者。目前从事python爬虫、后端和大数据等相关工作#xff0c;主要擅长领域有#xff1a;爬虫、后端、大数据… ⭐️⭐️⭐️⭐️⭐️欢迎来到我的博客⭐️⭐️⭐️⭐️⭐️ 作者秋无之地 简介CSDN爬虫、后端、大数据领域创作者。目前从事python爬虫、后端和大数据等相关工作主要擅长领域有爬虫、后端、大数据开发、数据分析等。 欢迎小伙伴们点赞、收藏⭐️、留言、关注关注必回关 上一篇文章已经跟大家介绍过《SVM下如何进行乳腺癌检测》相信大家对SVM下都有一个基本的认识。下面我讲一下KNN上数据分析 | 数据挖掘 | 十大算法之一 KNN 的英文叫 K-Nearest Neighbor应该算是数据挖掘算法中最简单的一种。 一、如何根据打斗和接吻次数来划分电影类型 我们先用一个例子体会下。 假设我们想对电影的类型进行分类统计了电影中打斗次数、接吻次数当然还有其他的指标也可以被统计到如下表所示。 我们很容易理解《战狼》《红海行动》《碟中谍 6》是动作片《前任 3》《春娇救志明》《泰坦尼克号》是爱情片但是有没有一种方法让机器也可以掌握这个分类的规则当有一部新电影的时候也可以对它的类型自动分类呢 我们可以把打斗次数看成 X 轴接吻次数看成 Y 轴然后在二维的坐标轴上对这几部电影进行标记如下图所示。对于未知的电影 A坐标为 (x,y)我们需要看下离电影 A 最近的都有哪些电影这些电影中的大多数属于哪个分类那么电影 A 就属于哪个分类。实际操作中我们还需要确定一个 K 值也就是我们要观察离电影 A 最近的电影有多少个。 二、KNN 的工作原理 “近朱者赤近墨者黑”可以说是 KNN 的工作原理。整个计算过程分为三步 计算待分类物体与其他物体之间的距离统计距离最近的 K 个邻居对于 K 个最近的邻居它们属于哪个分类最多待分类物体就属于哪一类。 1、K 值如何选择 你能看出整个 KNN 的分类过程K 值的选择还是很重要的。那么问题来了K 值选择多少是适合的呢 如果 K 值比较小就相当于未分类物体与它的邻居非常接近才行。这样产生的一个问题就是如果邻居点是个噪声点那么未分类物体的分类也会产生误差这样 KNN 分类就会产生过拟合。 如果 K 值比较大相当于距离过远的点也会对未知物体的分类产生影响虽然这种情况的好处是鲁棒性强但是不足也很明显会产生欠拟合情况也就是没有把未分类物体真正分类出来。 所以 K 值应该是个实践出来的结果并不是我们事先而定的。在工程上我们一般采用交叉验证的方式选取 K 值。 交叉验证的思路就是把样本集中的大部分样本作为训练集剩余的小部分样本用于预测来验证分类模型的准确性。所以在 KNN 算法中我们一般会把 K 值选取在较小的范围内同时在验证集上准确率最高的那一个最终确定作为 K 值。 2、距离如何计算 在 KNN 算法中还有一个重要的计算就是关于距离的度量。两个样本点之间的距离代表了这两个样本之间的相似度。距离越大差异性越大距离越小相似度越大。 关于距离的计算方式有下面五种方式 欧氏距离曼哈顿距离闵可夫斯基距离切比雪夫距离余弦距离。 其中前三种距离是 KNN 中最常用的距离我给你分别讲解下。 欧氏距离是我们最常用的距离公式也叫做欧几里得距离。在二维空间中两点的欧式距离就是 同理我们也可以求得两点在 n 维空间中的距离 曼哈顿距离在几何空间中用的比较多。以下图为例绿色的直线代表两点之间的欧式距离而红色和黄色的线为两点的曼哈顿距离。所以曼哈顿距离等于两个点在坐标系上绝对轴距总和。用公式表示就是 闵可夫斯基距离不是一个距离而是一组距离的定义。对于 n 维空间中的两个点 x(x1,x2,…,xn) 和 y(y1,y2,…,yn) x 和 y 两点之间的闵可夫斯基距离为 其中 p 代表空间的维数当 p1 时就是曼哈顿距离当 p2 时就是欧氏距离当 p→∞时就是切比雪夫距离。 那么切比雪夫距离怎么计算呢二个点之间的切比雪夫距离就是这两个点坐标数值差的绝对值的最大值用数学表示就是max(|x1-y1|,|x2-y2|)。 余弦距离实际上计算的是两个向量的夹角是在方向上计算两者之间的差异对绝对数值不敏感。在兴趣相关性比较上角度关系比距离的绝对值更重要因此余弦距离可以用于衡量用户对内容兴趣的区分度。比如我们用搜索引擎搜索某个关键词它还会给你推荐其他的相关搜索这些推荐的关键词就是采用余弦距离计算得出的。 三、KD 树 KNN 的计算过程是大量计算样本点之间的距离。为了减少计算距离次数提升 KNN 的搜索效率人们提出了 KD 树K-Dimensional 的缩写。KD 树是对数据点在 K 维空间中划分的一种数据结构。在 KD 树的构造中每个节点都是 k 维数值点的二叉树。既然是二叉树就可以采用二叉树的增删改查操作这样就大大提升了搜索效率。 在这里我们不需要对 KD 树的数学原理了解太多你只需要知道它是一个二叉树的数据结构方便存储 K 维空间的数据就可以了。而且在 sklearn 中我们直接可以调用 KD 树很方便。 四、用 KNN 做回归 KNN 不仅可以做分类还可以做回归。首先讲下什么是回归。在开头电影这个案例中如果想要对未知电影进行类型划分这是一个分类问题。首先看一下要分类的未知电影离它最近的 K 部电影大多数属于哪个分类这部电影就属于哪个分类。 如果是一部新电影已知它是爱情片想要知道它的打斗次数、接吻次数可能是多少这就是一个回归问题。 那么 KNN 如何做回归呢 对于一个新电影 X我们要预测它的某个属性值比如打斗次数具体特征属性和数值如下所示。此时我们会先计算待测点新电影 X到已知点的距离选择距离最近的 K 个点。假设 K3此时最近的 3 个点电影分别是《战狼》《红海行动》和《碟中谍 6》那么它的打斗次数就是这 3 个点的该属性值的平均值即 (10095105)/3100 次。 五、总结 今天我给你讲了 KNN 的原理以及 KNN 中的几个关键因素。比如针对 K 值的选择我们一般采用交叉验证的方式得出。针对样本点之间的距离的定义常用的有 5 种表达方式你也可以自己来定义两个样本之间的距离公式。不同的定义适用的场景不同。比如在搜索关键词推荐中余弦距离是更为常用的。 另外你也可以用 KNN 进行回归通过 K 个邻居对新的点的属性进行值的预测。 KNN 的理论简单直接针对 KNN 中的搜索也有相应的 KD 树这个数据结构。KNN 的理论成熟可以应用到线性和非线性的分类问题中也可以用于回归分析。 不过 KNN 需要计算测试点与样本点之间的距离当数据量大的时候计算量是非常庞大的需要大量的存储空间和计算时间。另外如果样本分类不均衡比如有些分类的样本非常少那么该类别的分类准确率就会低很多。 当然在实际工作中我们需要考虑到各种可能存在的情况比如针对某类样本少的情况可以增加该类别的权重。 同样 KNN 也可以用于推荐算法虽然现在很多推荐系统的算法会使用 TD-IDF、协同过滤、Apriori 算法不过针对数据量不大的情况下采用 KNN 作为推荐算法也是可行的。 ​ 版权声明 本文章版权归作者所有未经作者允许禁止任何转载、采集作者保留一切追究的权利。
http://www.zqtcl.cn/news/719186/

相关文章:

  • 新网站上线wordpress用户登陆
  • 景安网站备案表格首页风格
  • 做网站卖菜刀需要什么手续互联网营销顾问
  • 山东鲁中公路建设有限公司网站电商网站建设任务分解结构
  • 王野苏婉卿乐清网站优化
  • 三亚市住房和城乡建设厅网站wordpress适合企业网站模板
  • php网站建设思路方案中国空间站组合体
  • 帝国+只做网站地图厦门app定制公司
  • 网站运营推广主要做什么的高匿代理ip
  • 网站建设与维护采访稿wordpress 图床加速
  • 建设国际互联网网站完整网站开发教程
  • 一个购物交易网站怎么做网站管理功能图
  • 做有后台的网站如何提交网站地图
  • 网站建设税率多少潍坊市住房和城乡建设局网站
  • 网站图片怎么做白色背景青岛公司做网站的价格
  • 网站seo工具wordpress放视频没画面
  • 自己做个网站要多少钱o2o商城网站系统开发
  • 百度网站优化哪家好长沙抖音推广代运营公司
  • 做网站的软件worddede 后门暴网站
  • 极简风格 网站上市公司seo是什么意思
  • 商城手机网站设计网架公司十大排名
  • 在建设主题网站时邯郸房产信息网恋家网
  • 保山做网站建设做网站zwnet
  • 南阳做网站推广自助个人免费网站
  • 企业做网站怎么做高校档案室网站建设
  • 辽宁省建设厅网站升级期货交易软件定制开发
  • 网站建设公司工资设置mufen wordpress
  • 资阳网站网站建设月夜直播免费完整版
  • 自己的网站打不开了网站建设维护成本
  • 最便宜做网站c2c网站建站的标准