关于python:利用-Python-进行数据分析-2-NumPy-基础

什么是 NumPy？依据其官网文档的介绍：

NumPy 是 Python 中科学计算的根底包。它是一个 Python 库，提供多维数组对象，各种派生对象（如掩码数组和矩阵），以及用于数组疾速操作的各种 API，有包含数学、逻辑、形态操作、排序、抉择、输入输出、离散傅立叶变换、根本线性代数，根本统计运算和随机模仿等等。

NumPy 的外围是一个非凡的数组对象——ndarray 对象。当运算波及到 ndarray 对象时，默认通过预编译的 C 代码对一一元素操作，在运算大量数据时，运算速度极快。此外，咱们还能够看到 NumPy 的语法更简略。

乍一看有些抽象。那么，就让咱们一点一点，揭开 NumPy 的面纱。

想应用 NumPy，首先让咱们导入 NumPy 包：

import numpy as np

NumPy 的所有运算简直都是围绕数组（ndarray 对象）开展的。那么如何创立数组呢？

简略的，咱们能够将一个序列转换为数组。

in : data1 = [6, 7.5, 8, 0, 1]
     arr1 = np.array(data1)  # np.array() 能够将所有序列型的对象转换为一个数组
     arr1
out: array([6. , 7.5, 8. , 0. , 1.])

in : data2 = [[1, 2, 3, 4], [5, 6, 7, 8]]
     arr2 = np.array(data2)  # 等长嵌套序列将被转换为多维数组
     arr2
out: array([[1, 2, 3, 4],
            [5, 6, 7, 8]])

也有其余的函数能帮忙咱们间接创立一些非凡数组。

in : np.zeros((2, 3))  # 创立指定规格的全 0 数组
out: array([[0., 0., 0.],
            [0., 0., 0.]])

in : np.ones(4)  # 创立指定规格的全 1 数组
out: array([1., 1., 1., 1.])

in : np.arange(10)  # 相似 range()
out: array([0, 1, 2, 3, 4, 5, 6, 7, 8, 9])

in : data = np.random.randn(2, 3)  # 创立指定规格的随机值数组（基于规范正态分布）data
out: array([[-0.22036948, -0.92073677,  0.38747356],
            [0.48489615, -0.74062949,  0.5220284]])

每个数组都有两个根本属性：shape (示意各维度大小的元组)，dtype (用于阐明数组数据类型的对象)。

in : data.shape
out: (2, 3)

in : data.dtype
out: dtype('float64')

NumPy 能主动为输出的序列设定一个适合的数据类型。

in : arr1 = np.array([1, 2, 3])
     arr1.dtype
out: dtype('int32')

in : arr2 = np.array([1.2, 0.78, 5])
     arr2.dtype
out: dtype('float64')

也能够本人手动设置数组的数据类型。

arr3 = np.array([1, 2, 3], dtype=np.float64)  # 留神这里的类型名称是“np.float64”

如果你想对一个数组进行类型转换，能够应用 astype()。然而留神，astype() 并非在原数组上进行批改，而是会建设一个新数组。

in : arr3.astype(np.int32)
out: array([1, 2, 3])

in : arr3.dtype
out: dtype('float64')  # 能够看到，原数组 arr3 的数据类型并未被批改

大小相等的数组之间，任何算术运算都会将运算利用到元素级。

in : arr = np.array([[1., 2., 3.], [4., 5., 6.]])
     arr
out: array([[1., 2., 3.],
            [4., 5., 6.]])

in : arr * arr
out: array([[1.,  4.,  9.],
            [16., 25., 36.]])

in : arr + arr
out: array([[2.,  4.,  6.],
            [8., 10., 12.]])

in : arr ** 2  # 幂运算
out: array([[1.,  4.,  9.],
            [16., 25., 36.]])

数组之间进行比拟，会生成布尔值数组。

in : arr2 = np.array([[0., 4., 1.], [7., 2., 12.]])
     arr2
out: array([[0.,  4.,  1.],
            [7.,  2., 12.]])

in : arr2 > arr
out: array([[False,  True, False],
            [True, False,  True]])

咱们先来看一维数组。首先建设一个一维数组：

in : arr = np.arange(10)
     arr
out: array([0, 1, 2, 3, 4, 5, 6, 7, 8, 9])

创立数组切片的形式与创立序列切片的形式雷同。

in : arr[5:8]
out: array([5, 6, 7])

对切片赋值会被利用到每个元素之上。

in : arr[5:8] = 12  # 等式左边输出 1 个值，即可对切片蕴含的所有值赋值
     arr
out: array([0,  1,  2,  3,  4, 12, 12, 12,  8,  9])

in : arr = 12  # 这样赋值的话，arr 就被赋值为一个整数了，并不能放弃原来的数组构造
     arr
out: 12

# 如果想在原来的数组构造上，将所有值赋值为一个整数，能够这样：in : arr[:] = 12  
     arr
out: array([12, 12, 12, 12, 12, 12, 12, 12, 12, 12])

即便将切片保留为一个新的数组，对新数组的任何批改也会被利用到原数组上。这是因为 NumPy 为了解决大量数据，须要防止复制数组造成的占用运算性能问题。能够说， 咱们并没失去原数组切片的一个正本，而是失去了原数组切片的一个视图。

in : arr_slice = arr[5:8]  # 创立一个数组切片的视图
     arr_slice[0] = 100
     arr
out: array([12,  12,  12,  12,  12, 100,  12,  12,  12,  12])  # 能够看到原数组也被扭转了

以上个性是和 Python 根底的序列对象不同的。以 list 为例：

in : list1 = list(range(10))
     list1
out: [0, 1, 2, 3, 4, 5, 6, 7, 8, 9]

in : list1[5:8] = 12  # 一般的 python 列表则不能间接以这样的形式赋值给每个元素（NumPy 数组能够）out: Traceback (most recent call last):
       File "<input>", line 1, in <module>
     TypeError: can only assign an iterable

in : list1[5:8] = [12, 12, 12]  # 能够通过这样的办法赋值
     list1
out: [0, 1, 2, 3, 4, 12, 12, 12, 8, 9]

in : list1_slice = list1[5:8]
     list1_slice[0] = 100
     list1
out: [0, 1, 2, 3, 4, 12, 12, 12, 8, 9]  # 能够看到原列表没有被扭转

如果想得到数组切片的正本（而不是视图），能够采纳 copy()。

in : arr_slice_copy = arr[5:8].copy()  # 创立一个数组切片的正本
     arr_slice_copy[0] = 123456
     arr
out: array([12,  12,  12,  12,  12, 100,  12,  12,  12,  12])  # 能够看到原数组就没有被扭转了

那么如何对二维数组进行切片呢？

in : arr2d = np.array([[1, 2, 3], [4, 5, 6], [7, 8, 9]])
     arr2d
out: array([[1, 2, 3],
            [4, 5, 6],
            [7, 8, 9]])

in : arr2d[0, 2]
     arr2d[0][2]  # 这两种索引形式是一样的成果
out: 3

in : arr2d[:2]  # 对第 0 轴切片
out: array([[1, 2, 3],
            [4, 5, 6]])  # 切片后，数组仍是个二维数组

in : arr2d[:2, :1]  # 对第 0 轴、第 1 轴切片
out: array([[1],
            [4]])  # 切片后，数组仍是个二维数组

# 注：能够看到，切片不扭转数组的维度

咱们先建设两个数组用于举例：

in : names = np.array(['Bob', 'Joe', 'Will', 'Bob', 'Will', 'Joe', 'Joe'])
     data = np.random.randn(7, 4)
     names
     data
out: array(['Bob', 'Joe', 'Will', 'Bob', 'Will', 'Joe', 'Joe'], dtype='<U4')
     array([[0.05817461,  0.82783485,  0.46839737,  0.50975782],
            [1.15212531,  1.4481847 , -0.4201631 , -0.30265817],
            [1.05658084, -0.38813849,  0.16464375,  1.48137849],
            [-0.64680744, -0.90829029, -0.74018895,  0.17760956],
            [1.96177662,  0.747304  ,  0.08973106,  1.37109694],
            [-0.46767001, -0.50060317,  0.07396933,  0.8385746],
            [-1.71710491, -0.58035244,  2.19566878,  1.33896025]])

逻辑表达式能够用于生成布尔型数组，这个布尔型数组能够用于索引。

in : names == 'Bob'  # 用逻辑表达式生成布尔型数组
out: array([True, False, False,  True, False, False, False])

in : data_bob = data[names == 'Bob']  # 布尔型数组用于索引
                                   # 留神：布尔型数组的长度必须跟被索引的轴长度统一
     data_bob
out: array([[0.05817461,  0.82783485,  0.46839737,  0.50975782],
            [-0.64680744, -0.90829029, -0.74018895,  0.17760956]])

布尔型数组用于索引时，能够用“~”反转条件。

in : data[~(names == 'Bob')]  #  ~ 用于反转条件
out: array([[1.15212531,  1.4481847 , -0.4201631 , -0.30265817],
            [1.05658084, -0.38813849,  0.16464375,  1.48137849],
            [1.96177662,  0.747304  ,  0.08973106,  1.37109694],
            [-0.46767001, -0.50060317,  0.07396933,  0.8385746],
            [-1.71710491, -0.58035244,  2.19566878,  1.33896025]])

创立布尔型索引时，Python 能辨认的 not, and, or 是有效的，须要应用 ! & |。

in : data[(names != 'Bob') & (names != 'Joe')]
out: array([[1.05658084, -0.38813849,  0.16464375,  1.48137849],
            [1.96177662,  0.747304  ,  0.08973106,  1.37109694]])

如果想把一个一维数组进行构造重塑，变成 3 × 5 的二维数组，该怎么做呢？

in : arr = np.arange(15).reshape((3, 5))  # reshape() 用于数组的构造重塑
     arr
out: array([[0,  1,  2,  3,  4],
            [5,  6,  7,  8,  9],
            [10, 11, 12, 13, 14]])

如果想把上述数组转置，该怎么做呢？

in : arr.T
out: array([[0,  5, 10],
            [1,  6, 11],
            [2,  7, 12],
            [3,  8, 13],
            [4,  9, 14]])

通用函数（ufunc）是一种对 ndarray 中的数据执行元素级运算的函数。

ufunc 须要至多一个数组作为参数。输出一个数组的 ufunc，被称为一元 ufunc。

in : arr = np. arrange(10)
     arr
out: array([0, 1, 2, 3, 4, 5, 6, 7, 8, 9])

# 开平方
in : np.sqrt(arr)
out: array([0.        , 1.        , 1.41421356, 1.73205081, 2.        ,
            2.23606798, 2.44948974, 2.64575131, 2.82842712, 3.        ])

# 天然底数 e 的 x 次方
in : np.exp(arr)
out: array([1.00000000e+00, 2.71828183e+00, 7.38905610e+00, 2.00855369e+01,
            5.45981500e+01, 1.48413159e+02, 4.03428793e+02, 1.09663316e+03,
            2.98095799e+03, 8.10308393e+03])

而输出两个数组的 ufunc 被称为二元 ufunc。

in : x = np.random.randn(8)
     y = np.random.randn(8)
     x
     y
out: array([ 0.88741632, -0.47989197,  0.961642  ,  1.43875204, -1.28796969,
            -0.04834001,  0.27405319, -0.03876604])
     array([-2.25585454,  0.9791547 ,  2.72284215, -0.44911582,  0.39418769,
            -0.73406601, -0.77432083, -3.21548859])

# 返回两个数组中，对应地位更大的值组成的数组（与 x, y 雷同构造）in : np.maximum(x, y) 
out: array([ 0.88741632,  0.9791547 ,  2.72284215,  1.43875204,  0.39418769,
            -0.04834001,  0.27405319, -0.03876604])

也有能返回两个后果数组的函数。

in : arr = np.random.randn(7) * 5
     arr
out: array([-7.01330576, -0.40563694,  5.65876183, -6.69774849,  0.42850616,
             4.65646863,  4.64433757])

# 返回浮点数数组的小数和整数局部
in : remainder, whole_part = np.modf(arr)
     remainder
     whole_part
out: array([-0.01330576, -0.40563694,  0.65876183, -0.69774849,  0.42850616,
             0.65646863,  0.64433757])
     array([-7., -0.,  5., -6.,  0.,  4.,  4.])  # 尽管是整数局部，但数组类型仍是“float64”

通用函数都并非在原始数组上进行更改，而是构建了一个新的数组。如果想原地操作数组，能够明确指明 out 参数。

in : arr = np.random.randn(5)
     arr
out: array([-0.97691849,  0.31726746, -0.75027946,  0.51031132, -0.54012687])

in : np.sqrt(arr)
     arr
out: array([-0.97691849,  0.31726746, -0.75027946,  0.51031132, -0.54012687])  # 能够看到原数组没有被批改

in : np.sqrt(arr, arr)
out: array([nan, 0.563265  ,        nan, 0.71436078,        nan])

其余的通用函数列举于此：

NumPy 数组能够让咱们在不编写循环的状况下，用简洁的数组表达式进行数学运算。这种用数组表达式代替循环的做法，通常被称为矢量化。

比方，咱们当初想对一个网格型数据计算：

$$
\sqrt{(x^2 + y^2)}
$$

首先，让咱们创立一个网格型数据。

in : points1 = np.arange(-5, 0)  # x 轴
     points2 = np.arange(0, 5)  # y 轴
     points1
     points2
out: array([-5, -4, -3, -2, -1])
     array([0, 1, 2, 3, 4])

# np.meshgrid() 能够承受两个一维数组，并产生两个二维矩阵。# 能够把下面建设的网格画进去，将 x 轴和 y 轴组成的网格中，每个 (x, y) 都写进去，就容易了解了。# xs 是这个网格上 (x, y) 中 x 组成的二维矩阵；ys 是这个网格上 (x, y) 中 y 组成的二维矩阵；in : xs, ys = np.meshgrid(points1, points2)
     xs
     ys
out: array([[-5, -4, -3, -2, -1],
            [-5, -4, -3, -2, -1],
            [-5, -4, -3, -2, -1],
            [-5, -4, -3, -2, -1],
            [-5, -4, -3, -2, -1]])
     array([[0, 0, 0, 0, 0],
            [1, 1, 1, 1, 1],
            [2, 2, 2, 2, 2],
            [3, 3, 3, 3, 3],
            [4, 4, 4, 4, 4]])

# 当初，咱们就能够来计算下面的公式了
in : z = np.sqrt(xs ** 2 + ys ** 2)  # NumPy 让咱们能够像计算浮点数一样，编写计算数组的代码
     z
out: array([[5.        , 4.        , 3.        , 2.        , 1.],
            [5.09901951, 4.12310563, 3.16227766, 2.23606798, 1.41421356],
            [5.38516481, 4.47213595, 3.60555128, 2.82842712, 2.23606798],
            [5.83095189, 5.        , 4.24264069, 3.60555128, 3.16227766],
            [6.40312424, 5.65685425, 5.        , 4.47213595, 4.12310563]])

这一节介绍一下 np.where()，它是三元表达式 x if condition else y 的矢量化。

假如咱们有一个布尔数组和两个值数组。

xarr = np.array([1.1, 1.2, 1.3, 1.4, 1.5])
yarr = np.array([2.1, 2.2, 2.3, 2.4, 2.5])
cond = np.array([True, False, True, True, False])

咱们想要依据 cond 中的值选取 xarr 和 yarr 的值：当 cond 中的值为 True 时，选取 xarr 的值，否则从 yarr 中选取。

如果用列表推导式编写：

result = [(x if c else y) for x, y, c in zip(xarr, yarr, cond)]

但如果用 np.where() 编写，代码会简洁很多：

in : result = np.where(cond, xarr, yarr)
     result
out: array([1.1, 2.2, 1.3, 1.4, 2.5])

np.where() 的第一个参数是逻辑型数组，第二、三个参数则无需是数组。该函数的逻辑是：依据第一个逻辑型数组参数进行断定，若是，把数据替换为参数 2,；若不是，把数据替换为参数 3。

比方，咱们想把一个二维数组中，负数赋值为 2，正数放弃不变。

in : arr = np.random.randn(4,4)
     arr
out: array([[-1.14810005, -1.26020793, -0.88391974,  0.92820162],
            [-0.37743466,  0.72906491, -2.08884266,  1.02572131],
            [-0.18377037,  0.92768921,  0.80025967,  1.63431864],
            [2.05365743, -0.13690236, -0.84462678,  1.96340251]])
     
in : result = np.where(arr > 0, 2, arr)
out: array([[-1.14810005, -1.26020793, -0.88391974,  2.],
            [-0.37743466,  2.        , -2.08884266,  2.],
            [-0.18377037,  2.        ,  2.        ,  2.],
            [2.        , -0.13690236, -0.84462678,  2.]])

NumPy 能够对整个数组进行数学统计，举例如下：

in : arr = np.random.randn(3,2)
     arr
out: array([[0.39769436, -0.8714971],
            [-1.98139244, -0.91648828],
            [-0.61709608,  0.82630001]])

in : arr.mean()  # 求均值
     np.mean(arr)  # 和上式是等价的
out: -0.527079921854901

in : arr.std()  # 求标准差
out: 0.9201661620576673

in : arr.sum()  # 求和
out: -3.1624795311294065

in : arr.mean(axis=0)  # 计算每列的均值
out: array([-0.73359805, -0.32056179])

in : arr.sum(axis=1)  # 计算每行的和
out: array([-0.47380273, -2.89788073,  0.20920393])

上一节的办法也能够利用到布尔型数组里，此时 True = 1，False = 0。

in : arr = np.random.randn(100)
     (arr > 0).sum()  # 能够利用 sum() 对布尔型数组中的 True 值计数
out: 52

对于布尔型数组而言，也有一些非凡的罕用办法。

in : bools = np.array([False, False, True, False])
     bools.any()  # 数组中是否存在一个或多个 True
out: True

in : bools.all()  # 数组中是否都是 True
out: False

如何对数组中的值排序呢？

in : arr = np.random.randn(6)
     arr
out: array([-0.30308892, -1.18380195, -1.06029921, -0.92172841, -0.25920488, -0.53782583])

# 将数组原地排序
in : arr.sort()  
     arr
out: array([-1.18380195, -1.06029921, -0.92172841, -0.53782583, -0.30308892, -0.25920488])

对于多维数组来说，指明 sort() 中的轴参数，能够按轴对数组进行排序。

in : arr = np.array([[1, 6, 2], [8, 2, 0], [5, 7, 9]])
     arr
out: array([[1, 6, 2],
            [8, 2, 0],
            [5, 7, 9]])

in : arr.sort(1)
     arr
out: array([[1, 2, 6],
            [0, 2, 8],
            [5, 7, 9]])

in : arr.sort(0)
     arr
out: array([[0, 2, 6],
            [1, 2, 8],
            [5, 7, 9]])

在数据分析中，经常须要从一个蕴含反复值的数组中，提取出惟一值。这时，咱们能够应用 np.unique()。

in : names = np.array(['Bob', 'Joe', 'Will', 'Bob', 'Will', 'Joe', 'Joe'])
     np.unique(names)  # 返回不蕴含反复值、已排序的后果数组
out: array(['Bob', 'Joe', 'Will'], dtype='<U4')

in : ints = np.array([3, 3, 3, 2, 2, 1, 1, 4, 4])
     np.unique(ints)
out: array([1, 2, 3, 4])

有时，还须要判断一个数组中的值，是否蕴含在另一个数组中。

in : values = np.array([6, 0, 0, 3, 2, 5, 6])
     np.in1d(values, [2, 3, 6])  # 返回一个布尔型后果数组
out: array([True, False, False,  True,  True, False,  True])

本节以上的局部，咱们应用了很屡次 np.random.randn() 函数来创立一个随机数构建的数组，它示意依照规范正态分布取随机值。NumPy 生成的随机数并非真正的随机数，而是依据一个随机种子通过算法计算失去的，被称为伪随机数。如果你违心，也能够更改随机种子。

其余的函数能够用于生成不同的伪随机数数组：

学习了很多零散的常识，接下来咱们来看一个综合使用的例子。

假如咱们的初始地位是 0，往前走一步记为 1，往后走一步记为 -1。咱们开始随机散步，即步长为 1 和 -1 呈现的概率相等，每次咱们都能够往前走一步，或者往后走一步，一共走 1000 步。

nsteps = 1000
draws = np.random.randint(0, 2, size=nsteps)  # np.random.randint() 是从给定上上限的范畴内随机选取整数
steps = np.where(draws > 0, 1, -1)
walk = steps.cumsum()  # 生成散步门路：累加，返回每一步的累加值形成的后果数组

接下来，让咱们沿着散步门路做一些统计工作。

往后最远走到哪里？

walk.min()

往前最远走到哪里？

walk.max()

第一次走到第 10 步远是什么时候？

for i, walk_len in enumerate(np.abs(walk) >= 10):
    if walk_len == True:
        print(i)
        break

# 或者，用上面的形式更简洁：(np.abs(walk) >= 10).argmax()  # argmax() 返回第一个最大值的索引（True 就是布尔型数组中的最大值）

注：转载请注明出处。

本文属于《利用 Python 进行数据分析》读书笔记系列：

利用 Python 进行数据分析 —— 1 数据结构、函数和文件

关于python:利用-Python-进行数据分析-2-NumPy-基础

2.1 ndarray: 一种多维数组对象

2.1.1 创立 ndarray 对象

2.1.2 ndarray 的数据类型

2.1.3 雷同大小数组的运算

2.1.4 根本的索引和切片

2.1.5 布尔型索引

2.1.6 数组的构造重塑和转置

2.2 通用函数（ufunc）

2.3 利用数组进行数据处理

2.3.1 将条件逻辑表述为数组运算

2.3.2 数学和统计办法

2.3.3 用于布尔型数组的办法

2.3.4 排序

2.3.5 惟一化和其余的汇合逻辑

2.4 伪随机数生成

2.5 示例：随机散步