深究SQLAlchemy中的表关系 Table Relationships

jiezi

6 年前

SQL 中的表关系一直是比较难理解的地方。同样 SQLAlchemy 也对他们做了实现，如果对 SQL 中的表关系理解透彻的话，这里也可以更容易理解。
为什么需要定义 Relationships
在相关联的表中，我们可以不创建表关联的定义，而只是单纯互相引用 id 即可。但是，查询和使用起来就要麻烦很多：
#给定参数 User.name, 获取该 user 的 addresses
# 参考知乎：https://www.zhihu.com/question/38456789/answer/90470689

def get_addresses_from_user(user_name):
user = session.query(User).filter_by(name=user_name).first()
addresses = session.query(Address).filter_by(user_id=user.id).all()
return addresses
可以看到，这样的效率非常低。好在原生的 SQL 就有 relationship 设置，SQLAlchemy 将其引入到了 ORM 模型中。
它可以让我们只在表中声明表之间的关系，之后每次使用就完全无需手动交叉搜索，而是像对待一个表中的数据一样直接使用。
为什么不需要定义 relationships？
经过实践返回来加的这一节：实践中的 SQLAlchemy 的 ”relationship” 在一定程度上反而导致了整体表关联关系的极大复杂化，还有效率的极其低下。
如果你的数据库只有两个表的话，那么 relationship 随便定义随便用。如果只有几百条数据的话，那么也请随便玩。
但是，当数据库中有数十个表以上，单个关联层级就多过三个表以上层层关联，而且各个数据量以万为单位。那么，”relationship” 会把整个人都搞垮，简直还不如手写 SQL 语句清晰好理解，并且效率也差在了秒级与毫秒级的区别上。
SQLAlchemy 只能很轻松 handle Many to Many，但是如果是常见的 Many to Many to Many，或者是 Many to Many to Many to Many，那简直就是噩梦。
但是，我们都知道，项目做到一定程度，都会摆脱不了 ORM。无论是自己造轮子还是用别人的，无论起点是不是纯 SQL，终点都是 ORM。那么该怎么办呢？
网友的建议是：用 SQLAlchemy 建立各种 ORM 类对象，不要用内置的关联，直接在查询的时候手动 SQL 语句！
经过实践，我的建议是：

容易 SQL-Injection 注入的地方，用 SQLAlchemy 的 query

创建 ORM 对象时候，用 SQLAlchemy
多层关联的时候，不要用 SQLAlchemy
查询的时候，用 SQL
插入数据的时候，不要用 SQLAlchemy。（官方都说明了插入百万级的时候，和 SQL 插件是秒级的）

relationship() 函数
参考官方文档：Linking Relationships with Backref
SQLAlchemy 创建表关联时，使用的是 relationshi() 这个函数。它返回的是一个类的属性，比如 father 类的 children 属性。但是，它实际上并没有在 father 表中创建任何叫 children 的列，而是自动帮你到相关联的 children 表中去找数据，让你用起来感觉没有差别而已。这是非常方便的！
relationship() 这个函数的参数非常多，每一个参数都有很多内容需要理解。因为所有的表关联的形态，都是在这个函数里面定义的。以下分别讲解。
Reference 正向引用
传统的方法，是在父类中定义一个关系 relationship 或叫正向引用 Reference，子类只需定义一个外键。比如：
class Father(..):
id = Column(..)
children = relationship(‘Child’)

class Child(..):
father_id = Column(Integer, ForeignKey(‘father.id’) )

# 添加数据
daddy = Father()
jason = Child()
emma = Child()

# 将孩子挂到父亲名下
daddy.children.append(jason)
daddy.children.append(emma)
这样当每次我们使用 father.children 的时候，就会自动返回与这个 father 相关联的所有 children 了。
Back Reference 反向引用
单纯定义的 relationship(‘ 子类名 ’) 只是一个正向引用，也就是只能让父类调用子对象。反过来，如果要问 children 他们的父亲是谁，就不行了。
所以，我们还需要一个反向引用 (Back Reference) 的声明，让子对象能够知道父对象是谁。
定义方式是在父类的 relationship(..) 中加一个参数 backref：
class Father(..):
children = relationship(‘Child’, backref=’parent’)
注意：

backref 参数里面使用的随便写，主要用于之后子类的引用。
backref 参数是双向性的，意思是，只需要在父类中声明一次，那么父⇄子的双向关系就确立了，不用再去子类中写一遍。

这时候，我们在添加就可以这样互相调用了：
>>> Jason = Child()
>>> print(Jason.parent)
<__main__.Father object at 0x10222f860>
Bidirectional & Unidirectional Back Reference 双向和单向的反向引用
后来，SQLAlchemy 发现这种只在一边定义双向性 backref 的方法有点不太直观，所以又添加了另一个参数 back_populates 参数，而这个 back_populates 参数是单向性的，也就是说：你要确立双方向关系就必须在两边的类中都声明一遍。这样比较直观。
可以把 backref 和 back_populates 都读为 ”as”，这样就好记忆了。
比如：
class Father(..):
id = Column(..)
children = relationship(‘Child’, back_populates=’parent’)

class Child(..):
father_id = Column(Integer, ForeignKey(‘father.id’) )
parent = relationship(‘Father’, back_populates=’children’)
注意：back_populates 要求父类子类的关系名称必须严格“对称”：

父类的 relationship 属性名 children，必须对应子类的关系中的 back_populates 中的值
子类的 relationship 属性名 parent，必须对应父类的关系中的 back_populates 中的值

这样一来利用反向引用参数创建的关系就确立了。但是注意，无论用 backref 还是 back_populates 创建的关联，如果我们必须要为父子对象添加对象间的关联才能引用，否则谁也不知道谁是谁的父亲、儿子：
>>> daddy = Father()
>>> son = Child()
>>> daughter = Child()

>>> daddy.children
[]
>>> son.parent
None

>>> daddy.children.append(son)
>>> daddy.children.append(daughter)

>>> daddy.children
[<Child …>, <Child …>]

>>> son.parent
<Father …>
另外：上面添加父子关系的时候，不光可以用 daddy.children.append，还可以在声明子对象的时候确定：son = Child(parent=daddy)
反向引用参数对比：

backref 参数：双方向。在父类中定义即可。只能通过 daddy.children.append() 方式添加子对象关联。

back_populates 参数：单方向。必须在父子类中都定义，且属性名称必须严格对称。还可以通过 Child(parent=daddy) 的方式添加父对象关联。

SQL 中的表关系
对应关系：

One to Many 一对多：
Many to One 多对一：
Many to Many 多对多：

One to Many 一对多
建立一个 One-to-Many 的多表关联：
# …

class Person(Base):
id = Column(…)
name = Column(…)
pets = relationship(‘Pet’, backref=’owner’)
# 上面这句是添加一关联，而不是实际的列
# 注意：1. ‘Pet’ 是大写开头，因为指向了 Python 类，而不是数据库中表
# 2. backref 是指建立一个不存在于数据库的“假列”，
# 用于添加数据时候指认关联对象，代替传统 id 指定

class Pet(Base):
id = Column(…)
name = Column(…)
owner_id = Column(Integer, ForeignKey(‘person.id’)
# 上面这句添加了一个外键，
# 注意外键的 ’person’ 是数据库中的表名，而不是 class 类名，所以用小写以区分
创建好关联的表以后，我们就可以直接插入数据了。注意，插入带关联的数据也和 SQL 插入有些不同：
#…

# 添加主人
andy = Person(name=’Andrew’)
session.add(andy)
seession.commit()

# 添加狗
pp01 = Pet(name=’Puppy’, owner=andy)
pp02 = Pet(name=’Puppy’, owner=andy)
# 注意这句话中，owner 是刚才主表中注册 relationship 中的 backref 指定的参数名，
# 传给 owner 的是主表的一个 Python 实例化对象，而不是什么 id
# 看起来复杂，实际上 sqlalchemy 可以自动取出 object 的 id 然后匹配副表中的 foreignkey。

session.add(pp01)
session.add(pp02)
session.commit()

print(andy.pets)
# >>> [<Pet 1>, <Pet, 2>]
# 返回的是两个 Pet 对象

print(pp01.owner)
# >>> <Person ‘Andrew’>
# 同样，副表中利用 owner 这个 backref 定义的假列，返回的是 Person 对象。
Many to One 多对一
比如职工和公司的关系就是多对一。这和公司与职工对一对多有什么区别？区别其实是在 SQL 语句中的：多对一的关联关系，是在多的一方的表中定义，一的一方表中没有任何关系定义：
class Company(…):
id = Column(…)

class Employee(..):
id = Column(…)
company_id = Column(…, ForeignKey(‘company.id’) )
company = relationship(“Company”)
Many to Many 多对多
多对多的关系也很常见，比如 User 和 Radio 的关系：一个 Radio 可以有多个用户可以订阅，一个用户可以订阅多个 Radio。
SQL 中处理多对多的关系时，是把多对多分拆成两个一对多关系。做法是：新创建一个表，专门存储映射关系。原本的两个表无需设置任何外键。
SQLAlchemy 的实践中，也和 SQL 中的做法一样。
注意：既然有了专门的 Mapping 映射表，那么两个表各自就不需要注册任何 ForeignKey 外键了。
示例：
# 做出一个专门的表，存储映射关系
# 注意：1. 这个表中两个 ”id” 都不是主键，因为是多对多的关系，所以二者都可以有多条数据。
# 2. 映射表必须在前面定义，否则后面的类引用时，编译器会找不到
radio_users = Table(‘radio_users’, Base.metadata,
Column(‘whatever_name1’, Integer, ForeignKey(‘radios.id’)),
Column(‘whatever_name2’, Integer, ForeignKey(‘users.id’))
)

# 定义两个 ORM 对象：
class Radio(Base):
__tablename__ = ‘radios’

rid = Column(‘id’, Integer, primary_key=True)
followers = relationship(‘User’,
secondary=radio_users, # `secondary` 是专门用来指明映射表的
back_populates=’subscriptions’ # 这个值要对应另一个类的属性名
)

class User(Base):
__tablename__ = ‘users’

uid = Column(‘id’, Integer, primary_key=True)
subscriptions = relationship(‘Radio’,
secondary=radio_users,
back_populates=’followers’ # 这个值要对应另一个类的属性名
)
其中，secondary 是专门用来指明映射表的。
注意：多对多的时候我们也可以用 backref 参数来添加互相引用。但是这种方法太不直观了，容易产生混乱。所以这里建议用 back_populates 参数，在两方都添加引用，表现一种平行地位，方便理解。
然后插入数据时候是这么用：
r1 = Radio()
r2 = Radio()
r3 = Radio()

u1 = User()
u2 = User()
u3 = User()

# 添加对象间的关联
r1.followers += [u1, u2, u3]

# 反过来添加也一样
u1.subscriptions += [r2, r3]
Many to Many to Many 多对多对多（深层关联）
深层关联，为了避免理解困难，最笨的方法就是简单的使用外键 ID，然后手动搜索另一个表的对应 ID。
但是 SQLAlchemy 也可以实现这种深层关联：