共计 1768 个字符,预计需要花费 5 分钟才能阅读完成。
文章和代码曾经归档至【Github 仓库:https://github.com/timerring/dive-into-AI】或者公众号【AIShareLab】回复 R 语言 也可获取。
1. 导出数据
因为 R 次要用于数据分析,导入文件比导出文件更罕用,但有时咱们也须要将数据或剖析后果导出。函数 write.table()
和 write.csv()
能够别离将数据导出到一个 .txt 文件和 .csv 文件。
此外,函数 save()
能够将工作空间中的指定对象保留为以 .rdata
为扩展名的 R 数据文件。例如:
ID <- 1:5
sex <- c("male", "female", "male", "female", "male")
age <- c(25, 34, 38, 28, 52)
pain <- c(1, 3, 2, 2, 3)
pain.f <- factor(pain, levels = 1:3, labels = c("mild", "medium", "severe"))
patients <- data.frame(ID, sex, age, pain.f)
save(patients, file = "patients.rdata")
# 导入数据
load("patients.rdata")
rdata 格式文件占用空间小,用 R 读入速度很快。因而,倡议用户 在导入其余格局的数据并整顿好后,将其保留为 rdata 格局。要导入这种格局的数据,只需调用 load()
函数。
2. 用 rio 包导入和导出数据
R 中的 rio 包以提供一个相似万能工具的包为指标,用对立的 import()
函数和 export()
函数简化了用户导入和导出数据的工作。此外,该包里的 convert()
函数能够实现不同文件格式之间的转换。rio 包反对多种文件格式,包含 SAS、SPSS、Stata、Excel、MATLAB、Minitab 等其他软件中应用的数据文件格式。
上面以 datasets 包外面的数据集 infert 为例介绍 rio 包的几个罕用性能。
当你在本地加载 rio 包时,如果 R 提醒有些倡议装置的包没有装置,能够运行
install_formats()
命令进行装置。
library(rio)
data("infert")
str(infert)
# 'data.frame': 248 obs. of 8 variables:
# $ education : Factor w/ 3 levels "0-5yrs","6-11yrs",..: 1 1 1 1 2 2 2 2 2 2 ...
# $ age : num 26 42 39 34 35 36 23 32 21 28 ...
# $ parity : num 6 1 6 4 3 4 1 2 1 2 ...
# $ induced : num 1 1 2 2 1 2 0 0 0 0 ...
# $ case : num 1 1 1 1 1 1 1 1 1 1 ...
# $ spontaneous : num 2 0 0 0 1 1 0 0 1 0 ...
# $ stratum : int 1 2 3 4 5 6 7 8 9 10 ...
# $ pooled.stratum: num 3 1 4 2 32 36 6 22 5 19 ...
函数 str()
罕用于查看数据集的大小(观测的记录数及变量个数),以及各个变量的类型。从下面的输入能够看出,infert 是一个蕴含 248 个观测记录、每个记录有 8 个变量的数据框。
运行上面的命令将此数据框导出为 .csv 文件:
export(infert, "infert.csv")
在当前工作目录中能够找到方才导出的名为 infert.csv
的数据文件。运行上面的命令将该文件从 .csv 文件转换成 .sav 文件:
convert("infert.csv", "infert.sav")
而后用函数 import()
把下面生成的 .sav 文件导入 R 中,并命名为 infert.data:
infert.data <- import("infert.sav")
比拟原始的 infert 数据集和导入的 infert.data 数据集,除了第一个变量 education 的类型不一样,其余没有差异。在 R 中,as 系列函数能够用于实现变量类型的转换。
例如,这里将数据框 infert.data 中的字符型变量 education 转换为因子:
infert.data$education <- as.factor(infert.data$education)
str(infert.data$education)
# Factor w/ 3 levels "0-5 yrs","12+ yrs",..: 1 1 1 1 3 3 3 3 3 3 ...