关于python:Pandas数据框去重复ABBA类型

从string-db下载蛋白质相互作用的信息，在解决时发现蛋白A与B互作被记录了两次比方下边的例子（即AB、BA）

df.drop_duplicates()# Symbol1  Symbol2# Gnai3  Pdcl2# Pdcl2  Gnai3# Gm4340  Gm3376# Gm3376  Gm4340

而且drop_duplicates不能去除反复，因为他们在不同的列，因而能够想个方法，新建一列。

字符串的比拟大小是依据字符串按位比拟，两个字符串第一位字符的ascii码谁大，字符串就大，不再比拟前面的，比方

"Gnai3">"Pdcl2"# False

对axis=1是对每一行循环，总是把大的放在前边。

df.loc[:,"temp"]=df.apply(lambda x: f"{x[0]}-{x[1]}" if x[0]>x[1] else f"{x[1]}-{x[0]}",axis=1)# Symbol1 Symbol2 temp# Gnai3  Pdcl2 Pdcl2-Gnai3# Pdcl2  Gnai3 Pdcl2-Gnai3# Gm4340 Gm3376 Gm4340-Gm3376# Gm3376 m4340 Gm4340-Gm3376

这个时候再对temp的行去反复，就能够了

df.drop_duplicates(subset="temp")# Symbol1 Symbol2 temp# Pdcl2 Gnai3 Pdcl2-Gnai3# Gm4340 Gm3376 Gm4340-Gm3376

最初再删除temp列

df.drop_duplicates(subset="temp").drop(columns="temp")# Symbol1  Symbol2# Gnai3  Pdcl2# Gm4340  Gm3376