关于python:Pandas数据框去重复ABBA类型

4次阅读

共计 715 个字符,预计需要花费 2 分钟才能阅读完成。

从 string-db 下载蛋白质相互作用的信息,在解决时发现蛋白 A 与 B 互作被记录了两次比方下边的例子(即 AB、BA)

df.drop_duplicates()
# Symbol1  Symbol2
# Gnai3  Pdcl2
# Pdcl2  Gnai3
# Gm4340  Gm3376
# Gm3376  Gm4340

而且 drop_duplicates 不能去除反复,因为他们在不同的列,因而能够想个方法,新建一列。

字符串的比拟大小是依据字符串按位比拟,两个字符串第一位字符的 ascii 码谁大,字符串就大,不再比拟前面的,比方

"Gnai3">"Pdcl2"
# False

axis=1 是对每一行循环,总是把大的放在前边。

df.loc[:,"temp"]=df.apply(lambda x: f"{x[0]}-{x[1]}" if x[0]>x[1] else f"{x[1]}-{x[0]}",axis=1)
# Symbol1 Symbol2 temp
# Gnai3  Pdcl2 Pdcl2-Gnai3
# Pdcl2  Gnai3 Pdcl2-Gnai3
# Gm4340 Gm3376 Gm4340-Gm3376
# Gm3376 m4340 Gm4340-Gm3376

这个时候再对 temp 的行去反复,就能够了

df.drop_duplicates(subset="temp")
# Symbol1 Symbol2 temp
# Pdcl2 Gnai3 Pdcl2-Gnai3
# Gm4340 Gm3376 Gm4340-Gm3376

最初再删除 temp 列

df.drop_duplicates(subset="temp").drop(columns="temp")
# Symbol1  Symbol2
# Gnai3  Pdcl2
# Gm4340  Gm3376
正文完
 0