R语言里做缺失值数据处理的R包——naniar

这个R包的帮助文档
https://cran.r-project.org/web/packages/naniar/vignettes/getting-started-w-naniar.html
这个R包里提供了很多处理缺失值的函数,比如缺失值替换
将数据集里的缺失值统一替换成某个值
data.frame(x=c(NA,1:5),y=c(1:5,NA),
z=c(1,NA,NA,7,8,9)) %>%
naniar::replace_na_with(0)
只替换某列中的缺失值
data.frame(x=c(NA,1:5),y=c(1:5,NA),
z=c(1,NA,NA,7,8,9)) %>%
mutate(x=naniar::replace_na_with(x,”A”))
对缺失值进行填充,这个R包里提供了很多填充办法,最简单就是用品均值进行填充
按照列计算平均值然后填充
data.frame(x=c(NA,1:5),y=c(1:5,NA),
z=c(1,NA,NA,7,8,9)) %>%
naniar::impute_mean_all()
对某一列按照平均值填充
data.frame(x=c(NA,1:5),y=c(1:5,NA),
z=c(1,NA,NA,7,8,9)) %>%
mutate(x=naniar::impute_mean(x))
还有好多其他填充函数有需要的时候再来研究。
这个R包里还提供了对缺失值进行可视化展示的方式,比如ggplot2的散点图函数会把缺失值过滤掉作图,这个函数里提供的geom_miss_point() 可以把缺失值也画进图里
data.frame(x=c(NA,1:5),y=c(1:5,NA),
z=c(1,NA,NA,7,8,9)) %>%
ggplot(aes(x=x,y=y))+
naniar::geom_miss_point(size=5)

帮助文档里还提到了R包 visdat 可以可视化缺失值
data.frame(x=c(NA,1:5),y=c(1:5,NA),
z=c(1,NA,NA,7,8,9)) %>%
visdat::vis_dat()
还可以使用skimr这个R包对数据的整体情况进行查看
data.frame(x=c(NA,1:5),y=c(1:5,NA),
z=c(1,NA,NA,7,8,9)) %>%
skimr::skim()

欢迎大家关注我的公众号
小明的数据分析笔记本

声明:文中观点不代表本站立场。本文传送门:https://eyangzhen.com/421323.html

联系我们
联系我们
分享本页
返回顶部