R语言怎么用均值替换,回归插补及多重插补进行插补的操作

  介绍

小编给大家分享一下R语言怎么用均值替换,回归插补及多重插补进行插补的操作,相信大部分人都还不怎么了解,因此分享这篇文章给大家参考一下,希望大家阅读完这篇文章后大有收获、下面让我们一起去了解一下吧!

用均值替换,回归插补及多重插补进行插补

#,设置工作空间   #,把“数据及程序”文件夹拷贝到F盘下,再用setwd设置工作空间   setwd (“E: \ \ R_workspace \ \ R语言数据分析与挖掘实战\ \ chp4")   #,读取销售数据文件,提取标题行   inputfile  & lt;作用;read.csv(& # 39;。/数据/catering_sale.csv& # 39;,, header =,真的),   视图(inputfile)   #,变换变量名   inputfile  & lt;作用;data.frame (sales =, inputfile $ & # 39;销量& # 39;,,date =, inputfile $ & # 39;日期& # 39;)   视图(inputfile)   #,数据截取   inputfile  & lt;作用;inputfile [5:16,,)   视图(inputfile)   #,缺失数据的识别   is.na (inputfile), #,判断是否存在缺失   n  & lt;安康;和(is.na (inputfile)), #,输出缺失值个数   n   #,异常值识别   票面价值(mfrow =, c(1, 2)), #,将绘图窗口划为1行两列,同时显示两图   dotchart (inputfile销售美元),#,绘制单变量散点图   箱线图(inputfile美元销售,horizontal =,真的),#,绘制水平箱形图   #,异常数据处理   inputfile美元销售[5],=,NA  #,将异常值处理成缺失值   修复(inputfile), #,表格形式呈现数据   #,缺失值的处理   inputfile date 美元;& lt;作用;as.numeric (inputfile日期美元),#,将日期转换成数值型变量   sub  & lt;作用;(is.na (inputfile销售)美元),#,识别缺失值所在行数   子   #,将数据集分成完整数据和缺失数据两部分   inputfile1  & lt;作用;inputfile(子,,),   inputfile2  & lt;作用;inputfile(子,,)   #,行删除法处理缺失,结果转存   result1  & lt;作用;inputfile1   视图(result1)编写此表达式   #,均值替换法处理缺失,结果转存   avg_sales  & lt;作用;意味着(inputfile1销售美元),#,求变量未缺失部分的均值   avg_sales   #,用均值替换缺失   inputfile2 sales 美元;& lt;作用;代表(avg_sales n),   #,并入完成插补的数据   result2  & lt;作用;rbind (inputfile1, inputfile2),   视图(result2)   #,回归插补法处理缺失,结果转存   #,回归模型拟合   #,注意:因变量~自变量   model  & lt;作用;lm (sales  ~,日期,data =, inputfile1),   #,模型预测   inputfile2 sales 美元;& lt;安康;预测(模型,,inputfile2),   result3  & lt;作用;rbind (inputfile1, inputfile2)   #,多重插补法处理缺失,结果转存   库(晶格),#,调入函数包   库(质量)   库(nnet)   库(老鼠),#,前三个包是老鼠的基础   4 #,重插补,即生成4个无缺失数据集   imp  & lt;作用;老鼠(inputfile, m =, 4),   #,选择插补模型   #,inputfile为原始数据,有缺失   fit  & lt;作用;与(imp, lm (sales  ~,日期,data =, inputfile)),   #,m重复完整数据分析结果池   pooled  & lt;作用;池(适合)   总结(池)   result4  & lt;作用;完成(imp, action =, 3), #,选择第三个插补数据集作为结果

<强>补充:R语言数据缺失值处理(随机森林,多重插补)

缺失值是指数据由于种种因素导致的数据不完整,可以分为机械原因和人为原因。对于缺失值我们通常采用以下几种方法来进行插补。

1。读取数据

通过read.csv函数导入文档,也可以用其他函数读入,如openxlsx:: read.xlsx, read.table等。

头()查看数据前几行。

airquality  & lt;作用;read.csv (data.csv)   头(airquality)

 R语言怎么用均值替换,回归插补及多重插补进行插补的操作

2。检查数据完整性

首先,总结()查看数据基本信息

总结(airairquality)

 R语言怎么用均值替换,回归插补及多重插补进行插补的操作

可以看到臭氧中存在缺失值NA

通过调用VIM:: aggr()查看函数的缺失值(如果包安装较慢,可选用本地安装,链接已附需自行下载)

# install.packages (VIM # 39;)   库(VIM)   aggr (airquality)

 R语言怎么用均值替换,回归插补及多重插补进行插补的操作

R语言怎么用均值替换,回归插补及多重插补进行插补的操作