关于后端:celery笔记八之数据库操作定时任务

38次阅读

共计 4966 个字符,预计需要花费 13 分钟才能阅读完成。

本文首发于公众号:Hunter 后端
原文链接:celery 笔记八之数据库操作定时工作

后面咱们介绍定时工作是在 celery.py 中的 app.conf.beat_schedule 定义,这一篇笔记咱们介绍一下如何在 Django 零碎中的表里来操作这些工作。

  1. 依赖及 migrate 操作
  2. beat 的启动
  3. 表介绍
  4. 手动操作定时工作

1、依赖装置及 migrate 操作

咱们先通过 app.conf.beat_schedule 定义定时工作:

app.conf.beat_schedule = {
    'add-every-60-seconds': {
        'task': 'blog.tasks.add',
        'schedule': 60,
        'args': (16, 16),
    },
    'schedule_minus': {
        'task': 'blog.tasks.minus',
        'schedule': crontab(minute=5, hour=2),
        'args': (12, 24),
    },
}

如果咱们就这样启动 Django 零碎,worker 和 beat 服务,零碎的定时工作就只有一个,写死在零碎里。

当然,咱们也能够应用一些 celery 的函数来手动向零碎里增加定时工作,然而咱们有一个更好的办法来治理操作这些定时工作,那就是将这些定时工作写入到数据库中,来进行增删改查操作,定制开发。

将定时工作写入数据库,咱们须要进行以下几步操作:

  • 装置依赖
  • INSTALLED_APP 增加模块
  • 执行 migrate

装置依赖

通过 pip 装置一个 django-celery-beat 依赖:

pip3 install django-celery-beat

INSTALLED_APP 增加模块

装置后,要失常应用还须要将其增加到 settings.py 的 INSTALLED_APPS 中:

# settings.py

INSTALLED_APPS = [
    ...,
    'django_celery_beat',
]

执行 migrate

接下来咱们执行 migrate 操作将须要创立的表写入数据库:

python3 manage.py migrate

能够看到如下输入:

Running migrations:
  Applying django_celery_beat.0001_initial... OK
  Applying django_celery_beat.0002_auto_20161118_0346... OK
  Applying django_celery_beat.0003_auto_20161209_0049... OK
  Applying django_celery_beat.0004_auto_20170221_0000... OK
  Applying django_celery_beat.0005_add_solarschedule_events_choices... OK
  Applying django_celery_beat.0006_auto_20180322_0932... OK
  Applying django_celery_beat.0007_auto_20180521_0826... OK
  Applying django_celery_beat.0008_auto_20180914_1922... OK
  Applying django_celery_beat.0006_auto_20180210_1226... OK
  Applying django_celery_beat.0006_periodictask_priority... OK
  Applying django_celery_beat.0009_periodictask_headers... OK
  Applying django_celery_beat.0010_auto_20190429_0326... OK
  Applying django_celery_beat.0011_auto_20190508_0153... OK
  Applying django_celery_beat.0012_periodictask_expire_seconds... OK
  Applying django_celery_beat.0013_auto_20200609_0727... OK
  Applying django_celery_beat.0014_remove_clockedschedule_enabled... OK
  Applying django_celery_beat.0015_edit_solarschedule_events_choices... OK

而后能够看到在 Django 零碎对应的数据库里新增了几张表,表的介绍及应用咱们在前面再介绍。

2、beat 的启动

在启动 beat 前,咱们须要对时区进行设置,后面咱们介绍过在 Django 和 celery 中都须要设置成北京工夫:

TIME_ZONE = "Asia/Shanghai"
USE_TZ = False

# celery 时区设置 
CELERY_TIMEZONE = "Asia/Shanghai"
CELERY_ENABLE_UTC = False
DJANGO_CELERY_BEAT_TZ_AWARE = False

启动 beat 咱们须要增加参数将数据指定存储在数据库中,能够在启动 beat 的时候增加参数:

celery -A hunter beat -l INFO --scheduler django_celery_beat.schedulers:DatabaseScheduler

也能够通过 app.conf.beat_scheduler 指定值:

app.conf.beat_scheduler = 'django_celery_beat.schedulers:DatabaseScheduler'

而后间接启动 beat:

celery -A hunter beat -l INFO

3、表介绍

在执行完 migrate 之后零碎会多出几张表,都是定时工作相干的表:

  • django_celery_beat_clockedschedule
  • django_celery_beat_crontabschedule
  • django_celery_beat_intervalschedule
  • django_celery_beat_solarschedule
  • django_celery_beat_periodictask
  • django_celery_beat_periodictasks

其中 django_celery_beat_clockedschedule 和 django_celery_beat_solarschedule 临时不介绍

django_celery_beat_crontabschedule

是咱们的周期工作表,比方咱们下面定义的:

    'schedule_minus': {
        'task': 'blog.tasks.minus',
        'schedule': crontab(minute=5, hour=2),
        'args': (12, 24),
    },

执行 celery 的 beat 后,会在该表新增一条数据,表的字段就是咱们设置的 crontab() 里的值,包含 minute,hour,day_of_week,day_off_month,month_of_year 和 timezone。

除了 timezone 字段,后面的字段如何定义和应用上一篇笔记中曾经具体介绍过,timezone 字段则是咱们在 settings.py 里定义的时区信息。

django_celery_beat_intervalschedule

这张表的数据是咱们定义的间隔时间工作的表,比方每隔多少秒,多少分钟执行一次。

该表只有 id,every 和 period 字段,every 示意的是工夫的距离,填写的数字,period 则是单位,可选项有:

  • microseconds:毫秒
  • seconds:秒
  • minutes:分钟
  • hours:小时
  • days:天

咱们在定义距离工作的时候,除了间接应用数字示意秒之外,还能够应用 datetime.timedelta() 来定义其余工夫,比方:

from datetime import timedelta
app.conf.beat_schedule = {
    'add-every-60-seconds': {
        'task': 'blog.tasks.add',
        'schedule': timedelta(minutes=5),
        'args': (16, 16),
    },
}

然而当咱们启动 beat 的时候,零碎在写入数据库的时候还是会主动为咱们将其转化为秒数,比方 minutes=5,会给咱们退出的数据是:

every=300, period='seconds'

django_celery_beat_periodictask

这张表其实是对后面几张表的工作的一个汇总,

  • crontab_id,interval_id 等外键字段来判断是属于哪张表的定时 / 周期工作
  • last_run_at 上次运行工夫
  • total_run_count 总运行次数
  • name 示意工作名称
  • task 字段示意工作起源等

还有参数,队列等信息。

每一条在 django_celery_beat_crontabschedule 和 django_celery_beat_intervalschedule 表中的数据都必须在该表中有一个汇总的信息记录才能够失常运行。

也就是说在后面的两张表中能够增加各种工作执行的策略,而后在 django_celery_beat_periodictask 中有一个数据指向该策略,就能够应用该策略进行周期工作的执行。

其中,name 字段上是有惟一键的,然而 task 能够反复写入,这也就意味着咱们能够针对同一个 task 制订不同的定时策略。

django_celery_beat_periodictasks

这个表就一条数据,保留的是零碎上一次执行工作的工夫。

4、手动操作定时工作

接下来咱们本人定义两个周期工作,一个是 blog.tasks.add 函数,每隔 20s 运行一次,另一个是 blog.tasks.minus 函数,每天晚上 23 点 15 分执行一次。

咱们首先还是运行 beat 和 worke,而后在 python3 manage.py shell 中执行上面的代码:

import json
from django_celery_beat.models import IntervalSchedule, CrontabSchedule, PeriodicTask

twenty_second_interval, _ = IntervalSchedule.objects.get_or_create(every=20, period=IntervalSchedule.SECONDS)
eleven_clock_crontab, _ = CrontabSchedule.objects.get_or_create(minute=18, hour=23)

PeriodicTask.objects.get_or_create(
    interval_id=twenty_second_interval.id,
    name="twenty_second_interval",
    task="blog.tasks.add",
    args=json.dumps([1, 2]),
)

PeriodicTask.objects.get_or_create(
    crontab_id=eleven_clock_crontab.id,
    name="eleven_clock_crontab",
    task="blog.tasks.minus",
    args=json.dumps([8, 2]),
)

而后能够看到运行 beat 的 shell 中或者日志文件有输入上面的信息:

DatabaseScheduler: Schedule changed.

其实就是零碎监测了 PeriodicTask 表,发现它的数据有变动就会从新更改一次,当 beat 服务启动,零碎会去 PeriodicTask 表里获取数据。

如果这些工作的数据有更改,零碎就会检测到而后收回 Schedule changed 的信息。

我这边测试了 name、enabled、one_off、args 等字段,发现批改后零碎都会捕捉到工作的变动。

其中,one_off 字段的含意是该工作仅执行一次。

如果想获取更多后端相干文章,可扫码关注浏览:

正文完
 0