网站建设图片qq群,返利网网站建设,注册100万的公司一年缴纳多少税,高大上的企业网站概念
1.
#xff08;a#xff09;
光滑度高的好#xff0c;样本足够多光滑度越高就越能表征真实情况#xff0c;也能对预测变量更好的预测。
#xff08;b#xff09;
光滑度低的好#xff0c;因为可能“过拟合”#xff0c;一些误差大的数可能会较大的影响到预测… 概念
1.
a
光滑度高的好样本足够多光滑度越高就越能表征真实情况也能对预测变量更好的预测。
b
光滑度低的好因为可能“过拟合”一些误差大的数可能会较大的影响到预测变量数。
c
光滑度高的好高光滑度使得拟合非线性关系更切合。
d
光滑度低的好方差太大时使用光滑度高的进行拟合可能会导致“过拟合”。
2.问题略
a问题略
回归模型推断。
美国500强公司的排名和利润、员工人数、产业类型和CEO的工资关系。
b问题略
分类预测。
预测新产品会成功还是会失败。根据先前研发的20个产品的价格成本、市场预算、竞争价格和其它10个变量进行分类预测。
c问题略
回归模型预测。
通过2012年每周美元的百分比变化、美国市场百分比变阿虎、英国市场百分比变化、德国市场百分比变化预测未来美元百分比随全球股市的变化规律。
3.问题略
a问题略 b问题略
(平方)偏差-单调减少因为增加了光滑度产生更接近的拟合。方差-单调增加因为增加光滑度增加过度过拟合。训练误差-单调减少因为增加光滑度产生更接近样本的匹配。测试误差-U形曲线因为增加光滑度会使拟合从恰当到过头。贝叶斯(不可约)误差指在现有特征集上任意可以基于特征输入进行随机输出的分类器所能达到的最小误差。贝叶斯误差又可以叫做最小误差。它是在训练集无限大且已经按真实分布穷举了所有可能的特征组合后任何分类器所能达到的误差下限。产生贝叶斯误差的本质原因是特征集不足以推理出准确预测值否则贝叶斯误差为0。 4.问题略
a问题略
预测新产品是成功还是失败。
响应变量过去类似产品数据预测变量成功或失败。
推断来看病的人是否健康。
响应变量心率化验结果身高体重等预测变量健康/疾病。
预测软件学院2024级新生男生是否比女生多。
响应变量过去几年新生男女比例预测变量男生多/少。
b问题略
推理世界500强公司的排名和利润员工人数产业类型和CEO工资关系。
响应变量利润员工人数产业类型和CEO工资预测变量世界500强公司的排名。
预测未来大连天气变化。
响应变量过去几年天气预测变量未来天气变化。
预测美元百分比变化率和全球股市周变动的变化规律。
响应变量美元百分比变化美国市场百分比变化英国市场百分比变化德国市场百分比变化预测变量美元百分比变化和全球股市的变化规律。
c问题略
癌症类型聚类。更准确地诊断癌症类型。
电影推荐。推荐电影的用户谁有观看和评价类似的电影。
市场调查。产品的人口统计数据的聚类成群的消费者购买哪些产品。
5.问题略
a问题略
优点更好的拟合非线性模型减少偏差。
缺点需要大量的样本并且可能产生“过拟合”。
b问题略
需要更好的准确度光滑度高通常意味着更好的拟合数据预测的准确性和可信度更好。
c问题略
数据有很多噪声和异常值光滑度低一些会好。
6.问题略
a问题略
参数方法将问题简化它假定函数的形式。
而非参数方法不假定形式采用大量的观测数据来估计函数。
参数回归或者分类模型的优点是将模型简化不需要太多的观测数据但是如果假设出错会使模型的效果下降也有“过拟合”的风险。
7.问题略
a问题略
从1到6的距离分别是3,2sqrt(10),sqrt(5),sqrt(2),sqrt(3)
b问题略
Green观测值5是 K 1的最近邻。
c问题略
Red观测值256是K3的近邻。
d
小k。小k对于非线性边界更灵活而大K可能会更偏向于线性的边界。
、、、、、、 应用
在如下网址下载所需的College.csv文件
Resources - ISL with R, 1st Edition — An Introduction to Statistical Learning (statlearning.com)
8.问题略
a问题略 b问题略
fix(college) rownames(college) college[,1]
college college[,-1]
fix(college) c问题略
summary(college) college[,1] as.numeric(factor(college[,1]))
pairs(college[,1:10]) plot(college$Private, college$Outstate) Elite rep(No, nrow(college))
Elite[college$Top10perc50] Yes
Elite as.factor(Elite)
college data.frame(college, Elite)
summary(college$Elite)
plot(college$Elite, college$Outstate) par(mfrowc(2,2))
hist(college$Apps)
hist(college$perc.alumni, col2)
hist(college$S.F.Ratio, col3, breaks10)
hist(college$Expend, breaks100) plot(college$Top10perc, college$Grad.Rate)
很明显的错误超过100%的毕业率。 9.问题略
Auto read.csv(./Auto.csv, headerT, na.strings?)
headerT 表示CSV文件的第一行是列名即header。如果设置为F那么第一行将被视为普通数据行。na.strings? 表示将问号?识别为缺失值NA。在读取数据时所有问号将被替换为NA。
Auto na.omit(Auto)
删除数据框Auto中包含NA值的所有行。na.omit()函数会返回输入数据的一个副本删除了包含缺失值的行。
dim(Auto)
summary(Auto) a问题略
定量mpg, cylinders, displacement, horsepower, weight, acceleration, year
定性name, origin
b问题略
sapply(Auto[, 1:7], range)
sapply函数会对每个列应用指定的函数这里应用的函数是range它会返回每个列的最小值和最大值。 c问题略
sapply(Auto[, 1:7], mean)
mean会返回每个列的均值。 sapply(Auto[, 1:7], sd)
sd会返回每个列的标准差。 d问题略
rm10and85Auto Auto[-(10:85),] dim(rm10and85Auto) dim(Auto) - c(76,0)
rm10and85Auto[9,] Auto[9,]
rm10and85Auto[10,] Auto[86,]
sapply(rm10and85Auto[, 1:7], range) sapply(rm10and85Auto[, 1:7], mean) sapply(rm10and85Auto[, 1:7], sd) e问题略
总体上加速度越大重量越轻。 同样的内容只不过设置了一些不一样的东西。
plot(Auto$acceleration, Auto$weight,typel,main加速度和重量的关系度,xlab加速度,ylab重量) f问题略
没有提供足够的预测mpg的数据。
多数列都和mpg有一定的关联可能会对预测造成困扰。
Pairs()用于可视化数据框中每对变量之间的关系。
pairs(Auto) 注通常这里使用pairs(Auto)会报错“Error in pairs.default(Auto) : 非数值参数不能适用于pairs”使用strAuto查看数据类型大概率会发现字符非数字类型的数据列pairs是不能处理非数字的。 解决方法可以使用Auto[,9] as.numeric(factor(Auto[,9]))转化数字 就可以解决。只是这显然不是最优解造成了数据丢失哦。 10.问题略
a
library(MASS)
?Boston
dim(Boston) 506行 14列
自动打开了一个网址R: Housing Values in Suburbs of Boston详细说明了所有列的介绍包括城市犯罪率等等。 b
pairs(Boston) c
随着房子年限增大犯罪率增大。
plot(Boston$age, Boston$crim) plot(Boston$tax, Boston$crim)
高税率对犯罪率影响比较显著。尤其是在接近700税的时候。 d par(mfrowc(1,3))
hist(Boston$crim[Boston$crim1], breaks25)
hist(Boston$tax, breaks25) 总体犯罪率较低但是也有特别高的。
税率200到400与600的有较大差距。
总体都在40的左右但是也有极高和极低的。 e
dim(subset(Boston, chas 1)) 35个 f
median(Boston$ptratio) 中位数是19.05 g t(subset(Boston, medv min(Boston$medv)))
t()转置 summary(Boston) 该郊区其他自用房取值详见上图总体上是房屋情况都不是很好。 h
dim(subset(Boston, rm 7)) 64个郊区居民平均居住房间数量超过7。 dim(subset(Boston, rm 8)) 13个郊区居民平均居住房间数量超过8。
summary(subset(Boston, rm 8)) summary(Boston) 房间数超过8个的犯罪率较高人口地位也较低。