关于python:改变-Python-对象规则的黑魔法-Metaclass

明天分享的主题是：扭转类定义的神器 -metaclass

看到题目，你可能会想扭转类的定义有什么用呢？什么时候才须要应用 metaclass 呢？

明天我将带大家设计一个简略的 orm 框架，并简略分析一下 YAML 这个序列化工具的原理。

说到 metaclass，咱们首先必须分明一个最根底的概念就是对象是类的实例，而类是 type 的实例，反复一遍：

对象是类的实例
类是 type 的实例

在面向对象的编程模型中，类就相当于一个房子的设计图纸，而对象则是依据这个设计图纸建进去的房子。

下图中，玩具模型就能够代表一个类，而具体生产进去的玩具就能够代表一个对象：

总之，类就是创建对象的模板。

而 type 又是创立类的模板，那么咱们就能够通过 type 创立本人想要的类。

比方定义一个 Hello 的 class：

class Hello(object):
    def hello(self, name='world'):
     print('Hello, %s.' % name)

当 Python 解释器载入 hello 模块时，就会顺次执行该模块的所有语句，执行后果就是动态创建出一个 Hello 的 class 对象。

type()函数既能够查看一个类型或变量的类型，也能够依据参数创立出新的类型，比方下面那段类的定义实质上就是：

def hello(self, name='world'):
    print('Hello, %s.' % name)
Hello = type('Hello', (object,), dict(hello=hello))

type()函数创立 class 对象，顺次传入 3 个参数：

class 类的名称；
继承的父类汇合，留神 Python 反对多重继承，如果只有一个父类，别忘了 tuple 的单元素写法；
class 的办法名称与函数绑定以及字段名称与对应的值，这里咱们把函数 fn 绑定到办法名 hello 上。

通过 type() 函数创立的类和间接写 class 是齐全一样的，因为 Python 解释器遇到 class 定义时，仅仅是扫描一下 class 定义的语法，而后调用 type() 函数创立出 class。

失常状况下，咱们必定都是用 class Xxx… 来定义类，然而 type() 函数容许咱们动态创建出类来，这意味着 Python 这门动静语言反对运行期动态创建类。你可能感触不到这有多弱小，要晓得想在动态语言运行期创立类，必须结构源代码字符串再调用编译器，或者借助一些工具生成字节码实现，实质上都是动静编译，会非常复杂。

那 type 和 metaclass 有什么关系呢？metaclass 到底是什么呢？

我认为 metaclass 其实就是 type 或 type 的子类，通过继承 type，重载 __call__ 运算符，便能够在 class 类对象创立时作出一些批改。

对于类 MyClass：

class MyClass():
 pass

其实相当于：

class MyClass(metaclass = type):
 pass

一旦咱们把它的 metaclass 设置成 MyMeta：

class MyClass(metaclass = MyMeta):
 pass

MyClass 就不再由原生的 type 创立，而是会调用 MyMeta 的 __call__ 运算符重载。

class = type(classname, superclasses, attributedict) 
## 变为了
class = MyMeta(classname, superclasses, attributedict)

对于具备继承关系的类：

class Foo(Bar):
 pass

Python 做了如下的操作：

Foo 中有__metaclass__这个属性吗？如果是，Python 会通过__metaclass__创立一个名字为 Foo 的类(对象)
如果 Python 没有找到__metaclass__，它会持续在 Bar（父类）中寻找__metaclass__属性，并尝试做和后面同样的操作。
如果 Python 在任何父类中都找不到__metaclass__，它就会在模块档次中去寻找__metaclass__，并尝试做同样的操作。
如果还是找不到__metaclass__，Python 就会用内置的 type 来创立这个类对象。

假想一个很傻的例子，你决定在你的模块里所有的类的属性都应该是大写模式。有好几种办法能够办到，但其中一种就是通过在模块级别设定__metaclass__：

class UpperAttrMetaClass(type):
    ## __new__ 是在__init__之前被调用的非凡办法
    ## __new__是用来创建对象并返回之的办法
    ## 而__init__只是用来将传入的参数初始化给对象
    ## 你很少用到__new__，除非你心愿可能管制对象的创立
    ## 这里，创立的对象是类，咱们心愿可能自定义它，所以咱们这里改写__new__
    ## 如果你心愿的话，你也能够在__init__中做些事件
    ## 还有一些高级的用法会波及到改写__call__非凡办法，然而咱们这里不必
    def __new__(cls, future_class_name, future_class_parents, future_class_attr):
        ## 遍历属性字典，把不是__结尾的属性名字变为大写
        newAttr = {}
        for name,value in future_class_attr.items():
            if not name.startswith("__"):
                newAttr[name.upper()] = value

        ## 办法 1：通过 'type' 来做类对象的创立
        ## return type(future_class_name, future_class_parents, newAttr)

        ## 办法 2：复用 type.__new__办法，这就是根本的 OOP 编程
        ## return type.__new__(cls, future_class_name, future_class_parents, newAttr)

        ## 办法 3：应用 super 办法
        return super(UpperAttrMetaClass, cls).__new__(cls, future_class_name, future_class_parents, newAttr)


class Foo(object, metaclass = UpperAttrMetaClass):
    bar = 'bip'

print(hasattr(Foo, 'bar'))
## 输入: False
print(hasattr(Foo, 'BAR'))
## 输入:True

f = Foo()
print(f.BAR)
## 输入:'bip'

ORM 全称“Object Relational Mapping”，即对象 - 关系映射，就是把关系数据库的一行映射为一个对象，也就是一个类对应一个表，这样，写代码更简略，不必间接操作 SQL 语句。

当初设计一下 ORM 框架的调用接口，比方用户想通过 User 类来操作对应的数据库表User，咱们期待他写出这样的代码：

class User(Model):
    ## 定义类的属性到列的映射：id = IntegerField('id')
    name = StringField('username')
    email = StringField('email')
    password = StringField('password')

## 创立一个实例：u = User(id=12345, name='xiaoxiaoming', email='test@orm.org', password='my-pwd')
## 保留到数据库：u.save()

下面的接口通过惯例办法很难或简直很难实现，但通过 metaclass 就会绝对比较简单。核心思想就是通过 metaclass 批改类的定义，将类的所有 Field 类型的属性，用一个额定的字典去保留，而后从原定义中删除。对于 User 创建对象时传入的参数（id=12345, name=’xiaoxiaoming’ 等）能够模拟字典的实现或间接继承 dict 类保存起来。

其中，父类 Model 和属性类型 StringField、IntegerField 是由 ORM 框架提供的，剩下的魔术办法比方 save() 全副由 metaclass 主动实现。尽管 metaclass 的编写会比较复杂，但 ORM 的使用者用起来却异样简略。

首先定义 Field 类，它负责保留数据库表的字段名和字段类型：

class Field(object):

    def __init__(self, name, column_type):
        self.name = name
        self.column_type = column_type

    def __str__(self):
        return '<%s:%s>' % (self.__class__.__name__, self.name)

在 Field 的根底上，进一步定义各种类型的 Field，比方 StringField，IntegerField 等等：

class StringField(Field):

    def __init__(self, name):
        super(StringField, self).__init__(name, 'varchar(100)')

class IntegerField(Field):

    def __init__(self, name):
        super(IntegerField, self).__init__(name, 'bigint')

下一步，编写 ModelMetaclass：

class ModelMetaclass(type):

    def __new__(cls, name, bases, attrs):
        if name == 'Model':
            return type.__new__(cls, name, bases, attrs)
        print('Found model: %s' % name)
        mappings = dict()
        for k, v in attrs.items():
            if isinstance(v, Field):
                print('Found mapping: %s ==> %s' % (k, v))
                mappings[k] = v
        for k in mappings.keys():
            attrs.pop(k)
        attrs['__mappings__'] = mappings  ## 保留属性和列的映射关系
        attrs.setdefault('__table__', name) ## 当未定义__table__属性时，表名间接应用类名
        return type.__new__(cls, name, bases, attrs)

以及基类 Model：

class Model(dict, metaclass=ModelMetaclass):

    def __init__(self, **kw):
        super(Model, self).__init__(**kw)

    def __getattr__(self, key):
        try:
            return self[key]
        except KeyError:
            raise AttributeError(r"'Model' object has no attribute '%s'" % key)

    def __setattr__(self, key, value):
        self[key] = value

    def save(self):
        fields = []
        params = []
        args = []
        for k, v in self.__mappings__.items():
            fields.append(v.name)
            params.append('?')
            args.append(getattr(self, k, None))
        sql = 'insert into %s (%s) values (%s)' % (self.__table__, ','.join(fields), ','.join(params))
        print('SQL: %s' % sql)
        print('ARGS: %s' % str(args))

在 ModelMetaclass 中，一共做了几件事件：

在以后类（比方 User）中查找定义的类的所有属性，如果找到一个 Field 属性，就把它保留到一个__mappings__ 的 dict 中，同时从类属性中删除该 Field 属性（防止实例的属性遮蔽类的同名属性）；
当类中未定义 __table__ 字段时，间接将类名保留到 __table__ 字段中作为表名。

在 Model 类中，就能够定义各种操作数据库的办法，比方 save()，delete()，find()，update 等等。

咱们实现了 save() 办法，把一个实例保留到数据库中。因为有表名，属性到字段的映射和属性值的汇合，就能够结构出 INSERT 语句。

测试：

u = User(id=12345, name='xiaoxiaoming', email='test@orm.org', password='my-pwd')
u.save()

输入如下：

Found model: User
Found mapping: id ==> <IntegerField:id>
Found mapping: name ==> <StringField:username>
Found mapping: email ==> <StringField:email>
Found mapping: password ==> <StringField:password>
SQL: insert into User (id,username,email,password) values (?,?,?,?)
ARGS: [12345, 'xiaoxiaoming', 'test@orm.org', 'my-pwd']

测试 2：

class Blog(Model):
    __table__ = 'blogs'
    id = IntegerField('id')
    user_id = StringField('user_id')
    user_name = StringField('user_name')
    name = StringField('user_name')
    summary = StringField('summary')
    content = StringField('content')


b = Blog(id=12345, user_id='user_id1', user_name='xxm', name='orm 框架的根本运行机制', summary="简略讲述一下 orm 框架的根本运行机制",
         content="此处省略一万字...")
b.save()

输入：

Found model: Blog
Found mapping: id ==> <IntegerField:id>
Found mapping: user_id ==> <StringField:user_id>
Found mapping: user_name ==> <StringField:user_name>
Found mapping: name ==> <StringField:user_name>
Found mapping: summary ==> <StringField:summary>
Found mapping: content ==> <StringField:content>
SQL: insert into blogs (id,user_id,user_name,user_name,summary,content) values (?,?,?,?,?,?)
ARGS: [12345, 'user_id1', 'xxm', 'orm 框架的根本运行机制', '简略讲述一下 orm 框架的根本运行机制', '此处省略一万字...']

能够看到，save()办法曾经打印出了可执行的 SQL 语句，以及参数列表，只须要真正连贯到数据库，执行该 SQL 语句，就能够实现真正的性能。

YAML 是一个妇孺皆知的 Python 工具，能够不便地序列化 / 逆序列化构造数据。

装置：

pip install pyyaml

YAMLObject 的任意子类反对序列化和反序列化（serialization & deserialization）。比如说上面这段代码：

import yaml


class Monster(yaml.YAMLObject):
    yaml_tag = '!Monster'

    def __init__(self, name, hp, ac, attacks):
        self.name = name
        self.hp = hp
        self.ac = ac
        self.attacks = attacks

    def __repr__(self):
        return f"{self.__class__.__name__}(name={self.name}, hp={self.hp}, ac={self.ac}, attacks={self.attacks})"


monster1 = yaml.load("""
--- !Monster
name: Cave spider
hp: [2,6]
ac: 16
attacks: [BITE, HURT]
""")
print(monster1, type(monster1))

monster2 = Monster(name='Cave lizard', hp=[3, 6], ac=16, attacks=['BITE', 'HURT'])
print(yaml.dump(monster2))

运行后果：

Monster(name=Cave spider, hp=[2, 6], ac=16, attacks=['BITE', 'HURT']) <class '__main__.Monster'>
!Monster
ac: 16
attacks: [BITE, HURT]
hp: [3, 6]
name: Cave lizard

这外面调用对立的 yaml.load()，就能把任意一个 yaml 序列载入成一个 Python Object；而调用对立的 yaml.dump()，就能把一个 YAMLObject 子类序列化。

对于 load() 和 dump() 的使用者来说，他们齐全不须要提前晓得任何类型信息，这让超动静配置编程成了可能。比方说，在一个智能语音助手的大型项目中，咱们有 1 万个语音对话场景，每一个场景都是不同团队开发的。作为智能语音助手的外围团队成员，我不可能去理解每个子场景的实现细节。

在动静配置试验不同场景时，常常是明天我要试验场景 A 和 B 的配置，今天试验 B 和 C 的配置，光配置文件就有几万行量级，工作量不堪称不小。而利用这样的动静配置理念，就能够让引擎依据配置文件，动静加载所须要的 Python 类。

对于 YAML 的使用者也很不便，只有简略地继承 yaml.YAMLObject，就能让你的 Python Object 具备序列化和逆序列化能力。

据说即便是在大厂 Google 的 Python 开发者，发现能深刻解释 YAML 这种设计模式长处的人，大略只有 10%。而能晓得相似 YAML 的这种动静序列化 / 逆序列化性能正是用 metaclass 实现的人，可能只有 1% 了。而可能将 YAML 怎么用 metaclass 实现动静序列化 / 逆序列化性能讲出一二的可能只有 0.1% 了。

对于 YAMLObject 的 load 和 dump() 性能，简略来说，咱们须要一个全局的注册器，让 YAML 晓得，序列化文本中的 !Monster 须要载入成 Monster 这个 Python 类型，Monster 这个 Python 类型须要被序列化为 !Monster 标签结尾的字符串。

一个很天然的想法就是，那咱们建设一个全局变量叫 registry，把所有须要逆序列化的 YAMLObject，都注册进去。比方上面这样：

registry = {}
 
def add_constructor(target_class):
    registry[target_class.yaml_tag] = target_class

而后，在 Monster 类定义前面加上上面这行代码：

add_constructor(Monster)

这样的毛病很显著，对于 YAML 的使用者来说，每一个 YAML 的可逆序列化的类 Foo 定义后，都须要加上一句话add_constructor(Foo)。这无疑给开发者减少了麻烦，也更容易出错，毕竟开发者很容易忘了这一点。

更优雅的实现形式天然是通过 metaclass 解决了这个问题，YAML 的源码正是这样实现的：

class YAMLObjectMetaclass(type):
    def __init__(cls, name, bases, kwds):
        super(YAMLObjectMetaclass, cls).__init__(name, bases, kwds)
        if 'yaml_tag' in kwds and kwds['yaml_tag'] is not None:
            cls.yaml_loader.add_constructor(cls.yaml_tag, cls.from_yaml)
            cls.yaml_dumper.add_representer(cls, cls.to_yaml)
    ## 省略其余定义
 
class YAMLObject(metaclass=YAMLObjectMetaclass):
    yaml_loader = Loader
    yaml_dumper = Dumper
    ## 省略其余定义

能够看到，YAMLObject 把 metaclass 申明成了 YAMLObjectMetaclass，YAMLObjectMetaclass 则会扭转 YAMLObject 类和其子类的定义，就是上面这行代码将 YAMLObject 的子类退出到了 yaml 的两个全局注册表中：

cls.yaml_loader.add_constructor(cls.yaml_tag, cls.from_yaml)
cls.yaml_dumper.add_representer(cls, cls.to_yaml)

YAML 利用 metaclass，拦挡了所有 YAMLObject 子类的定义。也就是说，在你定义任何 YAMLObject 子类时，Python 会强行插入运行下面这段代码，把咱们之前想要的 add_constructor(Foo) 和add_representer(Foo)给主动加上。所以 YAML 的使用者，无需本人去手写 add_constructor(Foo) 和add_representer(Foo)。

这次分享次要是简略的浅析了 metaclass 的实现机制。通过实现一个 orm 框架并解读 YAML 的源码，置信你曾经对 metaclass 有了不错的了解。

metaclass 是 Python 黑魔法级别的语言个性，它能够扭转类创立时的行为，这种弱小的性能应用起来务必小心。

看完本文，你感觉装璜器和 metaclass 有什么区别呢？欢送下方留言和我探讨。记得一键三连呦，笔芯！

咱们的文章到此就完结啦，如果你喜爱明天的 Python 实战教程，能够关注公众号Python 编程学习圈，理解更多编程技术干货！

关于python:改变-Python-对象规则的黑魔法-Metaclass

Python 类的上帝 -type

metaclass 到底是什么

繁难 ORM 框架的设计

YAML 序列化工具的实现原理浅析

总结