宿州做企业网站公司,渝东建设工程造价信息网,搬家公司网站模板,网站宽度960变量#xff1a;名义型、有序型、连续型变量 名义型#xff1a;普通事件类型#xff0c;如糖尿病I型和糖尿病II型。 有序型#xff1a;有顺序的事件类型#xff0c;如一年级、二年级和三年级。 连续型#xff1a;表示有顺序的数量#xff0c;如年龄。
因子#xff1a;…变量名义型、有序型、连续型变量 名义型普通事件类型如糖尿病I型和糖尿病II型。 有序型有顺序的事件类型如一年级、二年级和三年级。 连续型表示有顺序的数量如年龄。
因子名义型、有序型。 名义型会用123形容不同类型名称。 有序性会用123形容类型和顺序/程度。 用str(数据框)可以查看程度顺序。
stringAsFactorsFALSE: 创建数据框的时候会在data.frame的最后加一个stringsAsFactorsFALSE是为了防止R把字符类型默认为因子。
标记为缺失值
leadership$age[leadership$age99] - NA将连续型转化为有序型
leadership$agecat[leadership$age 55] - young
leadership$agecat[leadership$age 55 leadership$age 75] - middle aged
leadership$age[leadership$age 75] - elder
重命名列
names(leadership)[6:10]- paste(item,1:5,sep)删除所有有缺失值的行
newdata - na.omit(leadership)类型转换 as.类型() 剔除变量 用名字剔除
myvars - names(leadership) %in% c(q3,q4)
newdate - leadership[!myvars]筛选数据
newdate - leadership[leadership$age30leadership$genderM,]随机抽样 sample()3表示抽3个replaceFALSE表示无放回抽样。
mysample - leadership[sample(1:nrow(leadership),3,replaceFLASESQL语句操作数据框 加载sqldf包library(sqldf)
library(sqldf)
newdf - sqldf(select * from mtcars where crab1 order by mpg,row.namesTRUE)取平均值mean():
z - mean(x, trim 0.05, na.rmTRUE)trim的取值范围为0到0.5之间表示在计算均值前需要去掉的异常值的比例。trim会在首尾分别去除N个异常值其中N样本数量*要去除的百分比(即是trim的值) na.rmTRUE -- 把缺失值删除掉再计算。
中心化与标准化 中心化数值-均值 标准化数值-均值/标准差 方差标准差的平方
数据标准化的应用 极差法原数据-极小值/极大值-极小值*100 例如新的分数是140分满分但是我们习惯于按照百分之去看分数。所以可以用极差法将数值规制于百分制内便于查看。