扬州网站建设suteng,ppt网站源码,计算机应用技术培训班,青岛seo计费数据预处理 R语言处理的数据多以数据框的形式出现。 预备操作 数据查看 dim(x)
[1] 16 3 #数据框有16行3列names(x) #查看数据框的变量名
[1] X Z Yhead(x,3) #查看前3行#xff0c;若为-3则是查看后三行之… 数据预处理 R语言处理的数据多以数据框的形式出现。 预备操作 数据查看 dim(x)
[1] 16 3 #数据框有16行3列names(x) #查看数据框的变量名
[1] X Z Yhead(x,3) #查看前3行若为-3则是查看后三行之外的数据X Z Y
1 140.1 37.0 2.25
2 151.5 38.5 3.00
3 161.2 42.1 3.25tail(x,3) #查看后3行若为-3则是查看前3行之外的数据X Z Y
14 149.5 39.7 2.75
15 159.6 44.5 3.00
16 162.5 45.0 3.20读取数据后可用attach载入数据框即attach(x)由此可直接用列名而不需再用$引用 数据筛选 Which( )函数ac(2,3,4,2,5,1,6,3,2,5,8,5,7,3) which.max(a) #表示a序列中第几个是最大
[1] 11which.min(a)
[1] 6a[which.max(a)] #先算里面的函数
[1] 8which(a2) #求哪些元素等于2
[1] 1 4 9a[which(a2)]
[1] 2 2 2which(a5)
[1] 7 11 13a[which(a5)]
[1] 6 8 7
x-read.table(li14.3.txt,headerT)
x$gender[which(x$genderf)]女y - c(7,7,15,11,9,12,17,12,18,18,14,18,18,19,19,19,25,22,19,23,7,10,11,15,11)n - factor(rep(c(15%,20%,25%,30%,35%),each5))d - data.frame(y,n)which(d[,2]15%) #求出第多少行满足条件
[1] 1 2 3 4 5mean(d[which(d[,2]15%),1]) # 对数据框1-5行第1列求均值
[1] 9.8 修改变量名 names(x)
[1] X Z Ynames(x)-paste(x,1:3,sep) #由此变量名全部修改names(x)
[1] x1 x2 x3names(x)[3]-产量 #把第3列的变量名修改为成绩names(x)
[1] x1 x2 成绩删除变量 给该变量赋予空值NULL即可,(指从数据集中删除) ug$GPA-NULL 排序 x[order(x$成绩),] #按成绩升序排列默认x1 x2 成绩
1 140.1 37.0 2.25
8 157.0 37.0 2.25x[order(x$成绩,decreasingT),] #按成绩降序排列x1 x2 成绩
7 170.5 54.5 3.50
3 161.2 42.1 3.25缺失值处理 缺失值识别 x$x2[3]-NAis.na(head(x$x2,3))
[1] FALSE FALSE TRUE缺失值排除 x_NA-na.omit(x) #把缺失值所在行排除x_NAx1 x2 成绩
1 140.1 37.0 2.25
2 151.5 38.5 3.00
4 172.8 46.5 3.25