介绍
小编给大家分享一下R语言怎么用均值替换,回归插补及多重插补进行插补的操作,相信大部分人都还不怎么了解,因此分享这篇文章给大家参考一下,希望大家阅读完这篇文章后大有收获、下面让我们一起去了解一下吧!
用均值替换,回归插补及多重插补进行插补
#,设置工作空间 #,把“数据及程序”文件夹拷贝到F盘下,再用setwd设置工作空间 setwd (“E: \ \ R_workspace \ \ R语言数据分析与挖掘实战\ \ chp4") #,读取销售数据文件,提取标题行 inputfile & lt;作用;read.csv(& # 39;。/数据/catering_sale.csv& # 39;,, header =,真的), 视图(inputfile) #,变换变量名 inputfile & lt;作用;data.frame (sales =, inputfile $ & # 39;销量& # 39;,,date =, inputfile $ & # 39;日期& # 39;) 视图(inputfile) #,数据截取 inputfile & lt;作用;inputfile [5:16,,) 视图(inputfile) #,缺失数据的识别 is.na (inputfile), #,判断是否存在缺失 n & lt;安康;和(is.na (inputfile)), #,输出缺失值个数 n #,异常值识别 票面价值(mfrow =, c(1, 2)), #,将绘图窗口划为1行两列,同时显示两图 dotchart (inputfile销售美元),#,绘制单变量散点图 箱线图(inputfile美元销售,horizontal =,真的),#,绘制水平箱形图 #,异常数据处理 inputfile美元销售[5],=,NA #,将异常值处理成缺失值 修复(inputfile), #,表格形式呈现数据 #,缺失值的处理 inputfile date 美元;& lt;作用;as.numeric (inputfile日期美元),#,将日期转换成数值型变量 sub & lt;作用;(is.na (inputfile销售)美元),#,识别缺失值所在行数 子 #,将数据集分成完整数据和缺失数据两部分 inputfile1 & lt;作用;inputfile(子,,), inputfile2 & lt;作用;inputfile(子,,) #,行删除法处理缺失,结果转存 result1 & lt;作用;inputfile1 视图(result1)编写此表达式 #,均值替换法处理缺失,结果转存 avg_sales & lt;作用;意味着(inputfile1销售美元),#,求变量未缺失部分的均值 avg_sales #,用均值替换缺失 inputfile2 sales 美元;& lt;作用;代表(avg_sales n), #,并入完成插补的数据 result2 & lt;作用;rbind (inputfile1, inputfile2), 视图(result2) #,回归插补法处理缺失,结果转存 #,回归模型拟合 #,注意:因变量~自变量 model & lt;作用;lm (sales ~,日期,data =, inputfile1), #,模型预测 inputfile2 sales 美元;& lt;安康;预测(模型,,inputfile2), result3 & lt;作用;rbind (inputfile1, inputfile2) #,多重插补法处理缺失,结果转存 库(晶格),#,调入函数包 库(质量) 库(nnet) 库(老鼠),#,前三个包是老鼠的基础 4 #,重插补,即生成4个无缺失数据集 imp & lt;作用;老鼠(inputfile, m =, 4), #,选择插补模型 #,inputfile为原始数据,有缺失 fit & lt;作用;与(imp, lm (sales ~,日期,data =, inputfile)), #,m重复完整数据分析结果池 pooled & lt;作用;池(适合) 总结(池) result4 & lt;作用;完成(imp, action =, 3), #,选择第三个插补数据集作为结果
<强>补充:R语言数据缺失值处理(随机森林,多重插补)强>
缺失值是指数据由于种种因素导致的数据不完整,可以分为机械原因和人为原因。对于缺失值我们通常采用以下几种方法来进行插补。
1。读取数据
通过read.csv函数导入文档,也可以用其他函数读入,如openxlsx:: read.xlsx, read.table等。
头()查看数据前几行。
airquality & lt;作用;read.csv (data.csv) 头(airquality)
2。检查数据完整性
首先,总结()查看数据基本信息
总结(airairquality)
可以看到臭氧中存在缺失值NA
通过调用VIM:: aggr()查看函数的缺失值(如果包安装较慢,可选用本地安装,链接已附需自行下载)
# install.packages (VIM # 39;) 库(VIM) aggr (airquality)