读书笔记:R 语言中数据结构基础知识补充
R 语言中常见谬误习惯
- 大小写应用谬误,函数名的大小写不同示意的性能也不同。
- 引号应用谬误,R 包的名称前后须要引号突围,否则报错。
- 函数后缀括号应用谬误,即便函数后没有参数,也要接上
()
。 - 路径名与本义符,
\
和/
示意不同含意,有时门路中含有\
, 须要将其批改。 - R 包应用谬误,每次应用 R 包都要先载入,否则会报错。
数据结构
向量
向量中的数据能够是数值型、逻辑型、字符型,然而单个向量内数据类型要统一。c()
示意组合的意思。
元素后方括号中加数字能够拜访该地位的元素。
矩阵
矩阵是二维数组,每个元素具备雷同的类型。maxrix 进行创立矩阵。
数组
矩阵只能是二维的,但数组能够具备更多维度。array 进行创立,数组能够看作是矩阵的一种扩大模式,数组内数据类型须要保持一致。
数据框
数据框的列与列之间的数据类型能够不同,然而每一列内要雷同,相似于常见的数据集格局。
数据框中每一列都是一个变量,能够应用 $
符号进行调用。
attach和 detach 这两对函数能够简化数据框的输出形式,防止每次反复输出数据框的名称。
还有一种形式是 with(数据名{执行命令 $ 变量名}),花括号内的赋值变量如果须要全局应用,则用<<-
符号。
因子
变量能够分成三种不同的类型
-
无序变量
- 名义型
类别型的数据,比方男和女,别离代表不同品种。
- 名义型
-
有序变量
- 非连续型
等级类的数据,比方小、中、大,存在肯定程序。 - 连续型
数值类的数据,比方株高、分量等,常见的测量数值。
- 非连续型
R 语言中用因子 (factor)
示意名义型和非间断有序型变量,实际上能够了解成将变量的每个子项映射到一个数字,用数字来代表类别或等级。
order=TRUE
示意有序排列 levels=c("small","mid","big")
设置序列等级,默认依照字母顺序排列。str()
能够疾速数据的构造信息 summary()
查看数据概要,包含最值、均值、频数等信息。
列表
R 语言中最为简单的数据结构,蕴含好几个对象(比方向量、矩阵、数据框、其余列表),用 list()
创立。
列表内每个对象(变量)能够独立命名,如果不加名称则依照数字程序。应用 [[x]]
双重方括号内加对象名或者序号即可疾速调取。
注意事项:
- 美元符号
$
示意变量的意思,句号.
没有非凡含意 - R 语言中序号下标从
1
开始,而不是0
。
课本材料:R 语言实战 - 第二版 - 人民邮电出版社
本文由 mdnice 多平台公布