NumPy反对大量的维度数组与矩阵运算,是针对数组运算的Python库。

本文收录于机器学习前置教程系列。

一、Python根底

咱们首先坚固一下Python的基础知识。Python有6种规范数据类型:Number(数字),String(字符串),List(列表),Tuple(元组),Set(汇合),Dictionary(字典)。
其中:
不可变数据:Number(数字)、String(字符串)、Tuple(元组)。
可变数据:List(列表)、Dictionary(字典)、Set(汇合)。

1. List[列表]

列表由方括号 [ ] 包裹,每个地位的数值可变。

list = [1, 2, 3, 4, 5, 6]

依据地位取值,如取第2个地位的值:

list[1]

失去 2
从第3个地位取值,到列表开端的所有值:

a[2:]

失去 [3, 4, 5, 6]

扭转指定地位的值:

list[0] = 9

列表a此时输入为 [9, 2, 3, 4, 5, 6]

2. Tuple(元组)

元组由圆括号 ( ) 包裹,每个地位的数值不可变。容许数据反复

tuple = ('a', 'a, 'c', 1, 2, 3.0)

输入('a', 'a', 'c', 1, 2, 3.0)
取最初一个地位的元素:

tuple[-1]

输入 3.0

元组操作与列表相似,但不可扭转元组内元素的值,否则会报错。

tuple[2] = 'caiyongji'

3. Set{汇合}

汇合是蕴含不反复元素的个体,由花括号 { } 包裹。

set1 = {'a','b','c','a'}set2 = {'b','c','d','e'}

set1的输入后果为:{'a', 'b', 'c'}留神:汇合会删除反复元素。
set2的输入后果为:{'b', 'c', 'd', 'e'}

与列表和元组不同,汇合是不可下标的,如:

set1[0]

上面,咱们来看看汇合运算。

set1和set2的差集

set1 - set2#set1.difference(set2) 

输入:{'a'}

set1和set2的并集

set1 | set2#set1.union(set2) 

输入:{'a', 'b', 'c', 'd', 'e'}

set1和set2的交加

set1 & set2#set1.intersection(set2) 

输入:{'b', 'c'}

set1和set2的对称差集

set1 ^ set2 #(set1 - set2) | (set2 - set1)#set1.symmetric_difference(set2)

输入:{'a', 'd', 'e'}

以上差集、并集、交加、对称差集都有对应的汇合办法,能够正文办法本人试试。

4. Dictionary{字典:Dictionary}

字典是一种映射关系,是无序有键值对(key-value)汇合。字典不容许反复的键(key),但容许反复的值(value)。

dict = {'gongzhonghao':'caiyongji','website':'caiyongji.com', 'website':'blog.caiyongji.com'}

字典输入{'gongzhonghao': 'caiyongji', 'website': 'blog.caiyongji.com'},须要留神的是,当字典蕴含反复键,前面的会笼罩后面的元素。

dict['gongzhonghao']

输入字符串 caiyongji。咱们也能够应用get办法失去雷同成果。

dict.get('gongzhonghao')

查看所有的键(key):

dict.keys()

输入 dict_keys(['gongzhonghao', 'website'])

查看所有的值(value):

dict.values()

输入 dict_values(['caiyongji', 'blog.caiyongji.com'])
扭转某一项的值:

dict['website'] = 'caiyongji.com'dict

输入 {'gongzhonghao': 'caiyongji', 'website': 'caiyongji.com'}

理解了Python的数据类型,咱们能够学着应用NumPy了。

二、Numpy常见用法

1. 创立数组

import numpy as nparr = np.array([1, 2, 3, 4, 5])

arr的输入为array([1, 2, 3, 4, 5])

咱们输出以下代码创立二维数组:

my_matrix = [[1,2,3],[4,5,6],[7,8,9]]mtrx= np.array(my_matrix)

mtrx的输入如下:

array([[1, 2, 3],       [4, 5, 6],       [7, 8, 9]])

2. 索引与切片

索引一维数组与二位数组如下:

print('arr[0]=',arr[0],'mtrx[1,1]=',mtrx[1,1])

输入 arr[0]= 1 mtrx[1,1]= 5

对数组切片:

arr[:3]

输入后果为 array([1, 2, 3])

倒数切片:

arr[-3:-1]

输入 array([3, 4])

退出步长(step),步长决定了切片距离:

arr[1:4:2]

输入 array([2, 4])

二维数组切片:

mtrx[0:2, 0:2]

输入,代码意义为取第1、2行,第1、2列:

array([[1, 2],       [4, 5]])

3. dtype

NumPy的dtpe有如下几种数据类型:

  • i - integer
  • b - boolean
  • u - unsigned integer
  • f - float
  • c - complex float
  • m - timedelta
  • M - datetime
  • O - object
  • S - string
  • U - unicode string
  • V - fixed chunk of memory for other type ( void )
import numpy as nparr1 = np.array([1, 2, 3, 4])arr2 = np.array(['apple', 'banana', 'cherry'])print('arr1.dtype=',arr1.dtype,'arr2.dtype=',arr2.dtype)

输入为 arr1.dtype= int32 arr2.dtype= <U6。arr1数据类型为int32,arr2的<U6示意不超过6位Unicode字符串。

咱们能够指定dtype类型。

arr = np.array(['1', '2', '3'], dtype='f')

输入后果位 array([1., 2., 3.], dtype=float32),其中1.示意1.0,能够看到dtype被设置位float32数据类型。

4. 个别办法

4.1 arange

np.arange(0,101,2)输入后果如下,该命令示意,在[0,101)区间内平均地生成数据,距离步长为2。

array([  0,   2,   4,   6,   8,  10,  12,  14,  16,  18,  20,  22,  24,        26,  28,  30,  32,  34,  36,  38,  40,  42,  44,  46,  48,  50,        52,  54,  56,  58,  60,  62,  64,  66,  68,  70,  72,  74,  76,        78,  80,  82,  84,  86,  88,  90,  92,  94,  96,  98, 100])

4.2 zeros

np.zeros((2,5))输入后果如下,该命令示意,输入2行5列全为0的矩阵(二维数组)。

array([[0., 0., 0., 0., 0.],       [0., 0., 0., 0., 0.]])

4.3 ones

np.ones((4,4))输入后果如下,该命令示意,输入4行4列全为1的矩阵。

array([[1., 1., 1., 1.],       [1., 1., 1., 1.],       [1., 1., 1., 1.],       [1., 1., 1., 1.]])

4.4 eye

np.eye(5)输入后果如下,该命令示意,输入对角线为1其余全为0的5行5列方阵。方阵为行列雷同的矩阵。

array([[1., 0., 0., 0., 0.],       [0., 1., 0., 0., 0.],       [0., 0., 1., 0., 0.],       [0., 0., 0., 1., 0.],       [0., 0., 0., 0., 1.]])

4.5 rand

np.random.rand(5,2) 命令生成5行2列的随机数。

array([[0.67227856, 0.4880784 ],       [0.82549517, 0.03144639],       [0.80804996, 0.56561742],       [0.2976225 , 0.04669572],       [0.9906274 , 0.00682573]])

如果想保障随机出与本例一样的随机数,可应用与本例雷同的随机种子。通过np.random.seed办法设置。

np.random.seed(99)np.random.rand(5,2)

4.6 randint

np.random.randint(0,101,(4,5))输入后果如下,该命令示意,在[0,101)区间内随机选取整数生成4行5列的数组。

array([[ 1, 35, 57, 40, 73],       [82, 68, 69, 52,  1],       [23, 35, 55, 65, 48],       [93, 59, 87,  2, 64]])

4.7 max min argmax argmin

咱们先随机生成一组数:

np.random.seed(99)ranarr = np.random.randint(0,101,10)ranarr

输入:

array([ 1, 35, 57, 40, 73, 82, 68, 69, 52,  1])

查看最大最小值别离为:

print('ranarr.max()=',ranarr.max(),'ranarr.min()=',ranarr.min())

输入后果为ranarr.max()= 82 ranarr.min()= 1
其中最大值和最小值的索引地位别离为:

print('ranarr.argmax()=',ranarr.argmax(),'ranarr.argmin()=',ranarr.argmin())

输入:ranarr.argmax()= 5 ranarr.argmin()= 0。留神,当呈现多个最大最小值时,取后面的索引地位。

三、NumPy进阶用法

1. reshape

arr = np.array([1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12])newarr = arr.reshape(4, 3)

其中,arr为一维数组,newarr为二位数组,其中行为4,列为3。

print('arr.shape=',arr.shape,'newarr.shape=',newarr.shape)

输入 arr.shape= (12,) newarr.shape= (4, 3)

newarr的输入后果如下:

array([[ 1,  2,  3],       [ 4,  5,  6],       [ 7,  8,  9],       [10, 11, 12]])

2. 合并与宰割

2.1 concatenate

一维数组合并:

arr1 = np.array([1, 2, 3])arr2 = np.array([4, 5, 6])arr = np.concatenate((arr1, arr2))arr

输入: array([1, 2, 3, 4, 5, 6])

二维数组合并:

arr1 = np.array([[1, 2], [3, 4]])arr2 = np.array([[5, 6], [7, 8]])arr = np.concatenate((arr1, arr2))arr

输入为:

array([[1, 2],       [3, 4],       [5, 6],       [7, 8]])

咱们增加参数axis=1

arr1 = np.array([[1, 2], [3, 4]])arr2 = np.array([[5, 6], [7, 8]])arr = np.concatenate((arr1, arr2), axis=1)arr

输入为:

array([[1, 2, 5, 6],       [3, 4, 7, 8]])

咱们把鼠标移到 concatenate,按快捷键Shift+Tab查看办法阐明。能够看到concatenate办法沿着现有的轴进行合并操作,默认axis=0。当咱们设置axis=1后,合并操作沿着列进行。

2.2 array_split

宰割数组:

arr = np.array([[1, 2], [3, 4], [5, 6], [7, 8], [9, 10], [11, 12]])newarr = np.array_split(arr, 3)newarr

newarr的值为:

[array([[1, 2],        [3, 4]]), array([[5, 6],        [7, 8]]), array([[ 9, 10],        [11, 12]])]

3. 搜寻与筛选

3.1 搜寻

NumPy可通过where办法查找满足条件的数组索引。

arr = np.array([1, 2, 3, 4, 5, 6, 7, 8])x = np.where(arr%2 == 0)x

输入:

(array([1, 3, 5, 7], dtype=int64),)

3.2 筛选

咱们看看上面的代码:

bool_arr = arr > 4arr[bool_arr]

输入:array([5, 6, 7, 8])。这回咱们返回的是数组中的值,而非索引。
咱们看看bool_arr的内容到底是什么。
bool_arr的输入为:

array([False, False, False, False,  True,  True,  True,  True])

所以咱们能够用以下命令代替以上筛选。

arr[arr > 4]

4. 排序

sort办法可对ndarry数组进行排序。

arr = np.array(['banana', 'cherry', 'apple'])np.sort(arr)

输入排序后的后果:array(['apple', 'banana', 'cherry'], dtype='<U6')

针对二维数组,sort办法对每一行独自排序。

arr = np.array([[3, 2, 4], [5, 0, 1]])np.sort(arr)

输入后果:

array([[2, 3, 4],       [0, 1, 5]])

5. 随机

5.1 随机概率

如果咱们想实现如下需要该如何解决?

生成蕴含100个值的一维数组,其中每个值必须为3、5、7或9。
将该值为3的概率设置为0.1。
将该值为5的概率设置为0.3。
将该值为7的概率设置为0.6。
将该值为9的概率设置为0。

咱们用如下命令解决:

random.choice([3, 5, 7, 9], p=[0.1, 0.3, 0.6, 0.0], size=(100))

输入后果:

array([7, 5, 7, 7, 7, 7, 5, 7, 5, 7, 7, 5, 5, 7, 7, 5, 3, 5, 7, 7, 7, 7,       7, 7, 7, 7, 7, 7, 5, 3, 7, 5, 7, 5, 7, 3, 7, 7, 3, 7, 7, 7, 7, 3,       5, 7, 7, 5, 7, 7, 5, 3, 5, 7, 7, 5, 5, 5, 5, 5, 7, 7, 7, 7, 7, 5,       7, 7, 7, 7, 7, 5, 7, 7, 7, 7, 3, 7, 7, 5, 7, 5, 7, 5, 7, 7, 5, 7,       7, 7, 7, 7, 7, 3, 5, 5, 7, 5, 7, 5])

5.2 随机排列

5.2.1 permutation

依据原有数组生成新的随机排列。

np.random.seed(99)arr = np.array([1, 2, 3, 4, 5])new_arr = np.random.permutation(arr)new_arr

输入为:array([3, 1, 5, 4, 2])。原数组arr不变。

5.2.2 shuffle

扭转原有数组为随机排列。shuffle在英文中有洗牌的意思。

np.random.seed(99)arr = np.array([1, 2, 3, 4, 5])np.random.shuffle(arr)arr

输入为:array([3, 1, 5, 4, 2])。原数组arr扭转。

5.3 随机散布

5.3.1 正太散布

应用np.random.normal办法生成合乎正太散布的随机数。

x = np.random.normal(loc=1, scale=2, size=(2, 3))x

输入后果为:

array([[ 0.14998973,  3.22564777,  1.48094109],       [ 2.252752  , -1.64038195,  2.8590667 ]])

如果咱们想查看x的随机散布,需装置seaborn绘制图像。应用pip装置:

pip install -i https://pypi.tuna.tsinghua.ed... seaborn
import matplotlib.pyplot as pltimport seaborn as snssns.distplot(x, hist=False)plt.show()

5.3.2 二项分布

应用np.random.binomial办法生成合乎二项分布的随机数。

x = np.random.binomial(n=10, p=0.5, size=10)x

输入后果为: array([8, 6, 6, 2, 5, 5, 5, 5, 3, 4])

绘制图像:

import matplotlib.pyplot as pltimport seaborn as snssns.distplot(x, hist=True, kde=False)plt.show()

5.3.3 多项式散布

多项式散布是二项分布的个别示意。应用np.random.multinomial办法生成合乎多项式散布的随机数。

x = np.random.multinomial(n=6, pvals=[1/6, 1/6, 1/6, 1/6, 1/6, 1/6])x

下面代码,咱们能够简略了解为投掷骰子。n=6为骰子的面,pvals示意每一面的概率为1/6。

5.3.4 其余

除以上散布外还有泊松散布、均匀分布、指数分布、卡方散布、帕累托散布等。感兴趣的可自行搜寻。


本文收录于机器学习前置教程系列。欢送大家点赞、珍藏、关注,更多对于机器学习的精彩内容继续更新中……!