作者|Louis Chan
编译|VK
起源|Towards Data Science
Python能够说是当今最酷的编程语言(多亏了机器学习和数据迷信),但与最好的编程语言之一C相比,它的效率并不是很高。
在开发机器学习模型时,很常见的状况是,咱们须要依据从统计分析或上一次迭代的后果导出的硬编码规定,而后以编程形式更新。抵赖这一点并不耻辱:我始终在用Pandas apply编写代码,直到有一天我对嵌套十分腻烦,于是决定钻研(又称Google)其余更可保护、更高效的办法
演示数据集
咱们将要应用的数据集是iris数据集,你能够通过pandas或seaborn收费取得它。
import pandas as pd
iris = pd.read_csv('https://raw.githubusercontent.com/mwaskom/seaborn-data/master/iris.csv')
# import seaborn as sns
# iris = sns.load_dataset("iris")
iris数据集的前5行
数据统计信息
假如在初始剖析之后,咱们心愿用以下逻辑标记数据集:
- 如果萼片长度(sepal length)< 5.1,则标签为0;
- 否则,如果萼片宽度(sepal width)> 3.3和萼片长度< 5.8,则标签为1;
- 否则,如果萼片宽度> 3.3,花瓣长度(petal length)> 5.1,则标签为2;
- 否则,如果萼片宽度> 3.3,花瓣长度< 1.6且萼片长度< 6.4或花瓣宽度< 1.3,则标签3;
- 否则,如果萼片宽度>3.3且萼片长度< 6.4或花瓣宽度< 1.3,则标签为4;
- 否则,如果萼片宽度> 3.3,则标签为5;
- 否则标签6
在深入研究代码之前,让咱们疾速地将一个新的label列设置为None:
iris['label'] = None
Pandas.iterrows+嵌套If Else块
如果你还在用这个,这篇博文相对是适宜你的中央!
%%timeit
for idx, row in iris.iterrows():
if row['sepal_length'] < 5.1:
iris.loc[idx, 'label'] = 0
elif row['sepal_width'] > 3.3:
if row['sepal_length'] < 5.8:
iris.loc[idx, 'label'] = 1
elif row['petal_length'] > 5.1:
iris.loc[idx, 'label'] = 2
elif (row['sepal_length'] < 6.4) or (row['petal_width'] < 1.3):
if row['petal_length'] < 1.6:
iris.loc[idx, 'label'] = 3
else:
iris.loc[idx, 'label'] = 4
else:
iris.loc[idx, 'label'] = 5
else:
iris.loc[idx, 'label'] = 6
1min 29s ± 8.91 s per loop (mean ± std. dev. of 7 runs, 1 loop each)
工夫挺长…好吧,咱们持续…
Pandas .apply
Pandas.apply间接用于沿数据帧的轴或Series来利用函数。例如,如果咱们有一个函数f,它能够是一个数列的和(例如,能够是一个list
, np.array
, tuple
等),并将其传递给如下数据帧,咱们将跨行求和:
def f(numbers):
return sum(numbers)
df['Row Subtotal'] = df.apply(f, axis=1)
在axis=1上利用函数。默认状况下,apply参数axis=0,即逐行利用函数;而axis=1将逐列利用函数。
当初咱们曾经对pandas.apply有了根本的理解,当初让咱们编写调配标签的逻辑代码,看看它运行多长时间:
%%timeit
def rules(row):
if row['sepal_length'] < 5.1:
return 0
elif row['sepal_width'] > 3.3:
if row['sepal_length'] < 5.8:
return 1
elif row['petal_length'] > 5.1:
return 2
elif (row['sepal_length'] < 6.4) or (row['petal_width'] < 1.3):
if row['petal_length'] < 1.6:
return 3
return 4
return 5
return 6
iris['label'] = iris.apply(rules, 1)
1.43 s ± 115 ms per loop (mean ± std. dev. of 7 runs, 1 loop each)
15万行只须要1.43s比之前的程度有了很大的进步,但依然十分迟缓。
设想一下,如果你须要解决一个由数百万个交易数据或信贷批准组成的数据集,那么每次咱们要利用一组规定并将函数利用在一个列时,它将占用14秒以上。运行足够多的列,你一个下午可能就没了。
Pandas.loc[]
如果你相熟SQL,那么应用.loc[]为新列赋值实际上只是一个带有WHERE条件的UPDATE语句。因而,这应该比将函数利用于每个行或列要好得多。
%%timeit
iris['label'] = 6
iris.loc[iris['sepal_width'] > 3.3, 'label'] = 5
iris.loc[
(iris['sepal_width'] > 3.3) &
((iris['sepal_length'] < 6.4) | (iris['petal_width'] < 1.3)),
'label'] = 4
iris.loc[
(iris['sepal_width'] > 3.3) &
((iris['sepal_length'] < 6.4) | (iris['petal_width'] < 1.3)) &
(iris['petal_length'] < 1.6),
'label'] = 3
iris.loc[
(iris['sepal_width'] > 3.3) &
(iris['petal_length'] > 5.1),
'label'] = 2
iris.loc[
(iris['sepal_width'] > 3.3) &
(iris['sepal_length'] < 5.8),
'label'] = 1
iris.loc[
(iris['sepal_length'] < 5.1),
'label'] = 0
13.3 ms ± 837 µs per loop (mean ± std. dev. of 7 runs, 100 loops each)
当初咱们只花了前一次的十分之一的工夫,这意味着当你在家工作的时候,你没有更多的借口来到办公桌。不过,咱们目前只应用pandas内置的函数。只管pandas为咱们提供了一个十分不便的高级接口来与数据表交互,然而通过层层形象,效率可能会升高。
Numpy.where
Numpy有一个较低级别的接口,容许与n维iterables(即向量、矩阵、张量等)进行更无效的交互。它的办法通常是基于C语言的,当波及到更简单的计算时,它应用了优化的算法,使得它比咱们从新创造的轮子更快。
依据numpy的官网文件,np.where()
承受以下语法:
np.where(condition, return value if True, return value if False)
实质上,这是一种二分,其中条件将被计算为布尔值并相应地返回值。这里的技巧是条件实际上能够是iterable(即布尔ndarray类型)。这意味着咱们能够将df[‘feature’]==1作为条件,并将where逻辑编码为:
np.where(
df['feature'] == 1,
'It is one',
'It is not one'
)
所以你可能会问,咱们如何用一个像np.where()这样的二分函数来实现上述逻辑呢?答案很简略,但却令人不安。嵌套np.where()
%%timeit
iris['label'] = np.where(
iris['sepal_length'] < 5.1,
0,
np.where(
iris['sepal_width'] > 3.3,
np.where(
iris['sepal_length'] < 5.8,
1,
np.where(
iris['petal_length'] > 5.1,
2,
np.where(
(iris['sepal_length'] < 6.4) | (iris['petal_width'] < 1.3),
np.where(
iris['petal_length'] < 1.6,
3,
4
),
5
)
)
),
6
)
)
3.6 ms ± 149 µs per loop (mean ± std. dev. of 7 runs, 100 loops each)
祝贺你,你挺过去了。我不能通知你我花了多少次来计算右括号,然而嘿,这就实现了!咱们又从pandas身上砍下了10毫秒。loc[]。然而,这个代码片段是不可保护的,这意味着,它是不可承受的。
Numpy.select
Numpy.select,它与.where不同,它是用来实现多线程逻辑的函数。
np.select(condlist, choicelist, default=0)
它的语法近似于np.where,但第一个参数当初是一个条件列表,它的长度应该与选项的长度雷同。应用时要记住一件事np.select是在满足第一个条件后立刻抉择一个选项。
这意味着,如果超集规定呈现在列表中的子集规定之前,那么子集抉择将永远不会被抉择。具体说来:
condlist = [
df['A'] <= 1,
df['A'] < 1
]
choicelist = ['<=1', '<1']
selection = np.select(condlist, choicelist, default='>1')
因为所有命中df[‘A’]<1的行也将被df[‘A’]<=1捕捉,因而没有行最终被标记为'<1’。为了防止这种状况产生,请务必在更具体的规定之前先制订一个不太具体的规定:
condlist = [
df['A'] < 1, # < ───┬ 替换
df['A'] <= 1 # < ───┘
]
choicelist = ['<1', '<=1'] # 记住也要更新这个!
selection = np.select(condlist, choicelist, default='>1')
从下面能够看到,你须要同时更新condlist和choicelsit,以确保代码顺利运行。但说真的,这一步也耗咱们本人的工夫。通过将其更改为字典,咱们将达到大致相同的工夫和内存复杂性,但应用更易于保护的代码片段:
%%timeit
rules = {
0: (iris['sepal_length'] < 5.1),
1: (iris['sepal_width'] > 3.3) & (iris['sepal_length'] < 5.8),
2: (iris['sepal_width'] > 3.3) & (iris['petal_length'] > 5.1),
3: (
(iris['sepal_width'] > 3.3) & \
((iris['sepal_length'] < 6.4) | (iris['petal_width'] < 1.3)) & \
(iris['petal_length'] < 1.6)
),
4: (
(iris['sepal_width'] > 3.3) & \
((iris['sepal_length'] < 6.4) | (iris['petal_width'] < 1.3))
),
5: (iris['sepal_width'] > 3.3),
}
iris['label'] = np.select(rules.values(), rules.keys(), default=6)
6.29 ms ± 475 µs per loop (mean ± std. dev. of 7 runs, 100 loops each)
大概是np.where的一半,但这不仅使你免于对各种嵌套的调试,而且使choicelist产生了变动。之前我曾经遗记更新choicelist太屡次了,以至于我花了四倍多的工夫来调试我的机器学习模型。置信我,np.select和dict。这是十分好的抉择
优良函数
- Numpy的向量化操作:如果你的代码波及循环和计算一元函数、二进制函数或对数字序列进行操作的函数。你应该通过将数据转换为numpy-ndarray来重构代码,并充分利用numpy的向量化操作来极大地提高脚本的速度。在Numpy的官网文档中查看一元函数、二元函数或对数字序列进行操作的函数的示例:https://www.pythonlikeyoumean…
- np.vectorize:不要被这个函数的名字愚弄。这只是一个不便的函数,并不会使代码运行得更快。要应用此函数,首先须要将逻辑编码为可调用函数,而后运行np.vectorize(你的函数)(你的数据系列)。另一个大的毛病是须要将数据帧转换为一维的iterable,以便传递到“矢量化”函数中。论断:如果不方便使用np.vectorize,别应用。
- numba.njit:当初这是真正的向量化。它试图将任何numpy值挪动到尽可能靠近C语言,以进步其效率。尽管它能够减速数值计算,但它也将本人限度为数值计算,这意味着没有pandas系列,没有字符串索引,只有具备int、float、datetime、bool和category类型的numpy的ndarray。论断:如果你可能轻松地应用Numpy的ndarray并将逻辑转换为数值计算或仅转换为数值计算,那么它将是一个十分优良的抉择。从这里理解更多:https://numba.pydata.org/numb…
结尾
如果可能的话,去争取numba.njit;否则,应用np.select和dict就能够帮忙你远航了。记住,每一点改良都会有帮忙!
原文链接:https://towardsdatascience.co…
欢送关注磐创AI博客站:
http://panchuang.net/
sklearn机器学习中文官网文档:
http://sklearn123.com/
欢送关注磐创博客资源汇总站:
http://docs.panchuang.net/
发表回复