这篇文章将为大家详细讲解有关R语言出现矩阵/缺失值怎么办,小编觉得挺实用的,因此分享给大家做个参考,希望大家阅读完这篇文章后可以有所收获。
缺失值处理一般包括三步:
1。识别缺失数据;
2。检查导致数据缺失的原因,
3。删除包含缺失值的实例或用合理的数值代替(插补)缺失值。
1。判断缺失值
函数is.na (), is.nan()和is.infinite()可分别用来识别缺失值,不可能值和无穷值。每个返回结果都是
真或假
na表示缺失值
南表示不是一个数字
无限表示+负无穷到
一定要亲手试x=0/0,以及x=1/0
祝辞x & lt;作用;na 祝辞,is.na (x) [1],真的 祝辞,is.nan (x) [1],假的 祝辞,is.infinite (x) ,[1]假
函数complete.cases()可用来识别矩阵或数据框中没有缺失值的行
<强>超级好用强>
#加载数据集 在数据(=睡眠,package “VIM") #没有缺失值的行 在睡眠(complete.cases(睡眠),) #列出有一个或多个缺失值的行 祝辞睡眠[! complete.cases(睡眠)]
2。图形探究缺失数
#自己生成图形 在库(“VIM") 祝辞aggr(睡眠,prop =,假,numbers =, TRUE)
matrixplot()函数可生成展示每个实例数据的图形
#自己生成图形 marginplot(睡眠[c (“Gest",“Dream")], phc=c(20),坳=c (“darkgray",“red",“blue"))
3。删除缺失值
函数complete.cases()可以用来存储没有缺失值的数据框或者矩阵形式的实例(行):
#可以把mydata替换成睡眠,延续上面的代码 祝辞newdata & lt;作用;mydata [complete.cases (mydata)]
同样的结果可以用na。省略函数获得:
#可以把mydata替换成睡眠,延续上面的代码 祝辞newdata & lt;作用;na.omit (mydata)
两行代码表示的意思都是:mydata中所有包含缺失数据的行都被删除,然后结果才存储到newdata中,以后拟合就用新数据newdata。
处理含缺失值的数据集时,成对删除常作为行删除的备选方法使用。对于成对删除,观测只是当它含缺失数据的变量涉及某个特定分析时才会被删除:
在软木(=睡眠,use “pairwise.complete.obs")
3.1补全缺失值
函数老鼠()首先从一个包含缺失数据的数据框开始,然后返回一个包含多个(默认为5个)完整数据集的对象。
每个完整数据集都是通过对原始数据框中的缺失数据进行插补而生成的。
由于插补有随机的成分,因此每个完整数据集都略有不同。
然后,与()函数可依次对每个完整数据集应用统计模型(如线性模型或广义线性模型),最后,池()函数将这些单独的分析结果整合为一组结果。
最终模型的标准误和p值都将准确地反映出由于缺失值和多重插补而产生的不确定性。
在图书馆(老鼠) 在数据(“sleep" package =,“VIM") 祝辞imp & lt;安康;老鼠(睡眠,seed =, 1234) # imp & lt;安康;老鼠(睡眠) 祝辞fit & lt;作用;(imp, lm(梦想~跨度+武功)) 适合 祝辞pooled & lt;作用;池(适合) 在总结(池) 小鬼 祝辞dataset2 & lt;作用;完成(imp, action =, 2) 祝辞软木(睡眠,use =,“pairwise.complete.obs")
dataset2 newData
引用>下图为完整缺失值处理图片:
<强>补充:R语言读取数据空值强>
一、三文件
<强> 1。文件中的内容有双引号,空值的时候是一对双引号强>
文件名。txt文件内容形如:
“ID"“ITEM"
“1080254842”;“汉”字“
“1080254842”;“中文“
“1080594798”;““
“1080594798”;““
引用>导入数据:
test & lt; -read.table (“filename.txt",头=TRUE)空值部分并不是NA, R语言不会把他识别为NA,改为下面的语句,即可解决。
test & lt; -read.table (“filename.txt"头=TRUE, na.strings =,““)<强> 2。文件中内容无双引号,空值即直接空白,形如下面:
R语言出现矩阵/缺失值怎么办