关于人工智能:多任务学习模型之ESMM介绍与实现

简介：本文介绍的是阿里巴巴团队发表在 SIGIR’2018 的论文《Entire Space Multi-Task Model: An Eﬀective Approach for Estimating Post-Click Conversion Rate》。文章基于 Multi-Task Learning (MTL) 的思路，提出一种名为ESMM的CVR预估模型，无效解决了实在场景中CVR预估面临的数据稠密以及样本抉择偏差这两个关键问题。后续还会陆续介绍MMoE，PLE，DBMTL等多任务学习模型。

多任务学习背景

目前工业中应用的举荐算法已不只局限在单指标（ctr）工作上，还须要关注后续的转换链路，如是否评论、珍藏、加购、购买、观看时长等指标。

本文介绍的是阿里巴巴团队发表在 SIGIR’2018 的论文《Entire Space Multi-Task Model: An Eﬀective Approach for Estimating Post-Click Conversion Rate》。文章基于 Multi-Task Learning (MTL) 的思路，提出一种名为ESMM的CVR预估模型，无效解决了实在场景中CVR预估面临的数据稠密以及样本抉择偏差这两个关键问题。后续还会陆续介绍MMoE，PLE，DBMTL等多任务学习模型。

论文介绍

CVR预估面临两个关键问题：

1. Sample Selection Bias (SSB)

转化是在点击之后才“有可能”产生的动作，传统CVR模型通常以点击数据为训练集，其中点击未转化为负例，点击并转化为正例。然而训练好的模型理论应用时，则是对整个空间的样本进行预估，而非只对点击样本进行预估。即训练数据与理论要预测的数据来自不同散布，这个偏差对模型的泛化能力形成了很大挑战，导致模型上线后，线上业务成果往往个别。

2. Data Sparsity (DS)

CVR预估工作的应用的训练数据（即点击样本）远小于CTR预估训练应用的曝光样本。仅应用数量较小的样本进行训练，会导致深度模型拟合艰难。

一些策略能够缓解这两个问题，例如从曝光集中对unclicked样本抽样做负例缓解SSB，对转化样本过采样缓解DS等。但无论哪种办法，都没有从本质上解决下面任一个问题。

因为点击=>转化，自身是两个强相干的间断行为，作者心愿在模型构造中显示思考这种“行为链关系”，从而能够在整个空间上进行训练及预测。这波及到CTR与CVR两个工作，因而应用多任务学习（MTL）是一个天然的抉择，论文的要害亮点正在于“如何搭建”这个MTL。

首先须要重点辨别下，CVR预估工作与CTCVR预估工作。

CVR = 转化数/点击数。是预测“假如item被点击，那么它被转化”的概率。CVR预估工作，与CTR没有相对的关系。一个item的ctr高，cvr不肯定同样会高，如题目党文章的浏览时长往往较低。这也是不能间接应用全副样本训练CVR模型的起因，因为无奈确定那些曝光未点击的样本，假如他们被点击了，是否会被转化。如果间接应用0作为它们的label，会很大水平上误导CVR模型的学习。
CTCVR = 转换数/曝光数。是预测“item被点击，而后被转化”的概率。

其中x,y,z别离示意曝光，点击，转换。留神到，在全副样本空间中，CTR对应的label为click，而CTCVR对应的label为click & conversion，这两个工作是能够应用全副样本的。因而，ESMM通过学习CTR，CTCVR两个工作，再依据上式隐式地学习CVR工作。具体构造如下：

网络结构上有两点值得强调：

共享Embedding。 CVR-task和CTR-task应用雷同的特色和特色embedding，即两者从Concatenate之后才学习各自独享的参数；

隐式学习pCVR。这里pCVR 仅是网络中的一个variable，没有显示的监督信号。
具体地，反映在指标函数中：

代码实现

基于EasyRec举荐算法框架，咱们实现了ESMM算法，具体实现可移步至github：EasyRec-ESMM。

EasyRec介绍：EasyRec是阿里云计算平台机器学习PAI团队开源的大规模分布式举荐算法框架，EasyRec 正如其名字一样，简略易用，集成了诸多优良前沿的举荐零碎论文思维，并且有在理论工业落地中获得低劣成果的特色工程办法，集成训练、评估、部署，与阿里云产品无缝连接，能够借助 EasyRec 在短时间内搭建起一套前沿的举荐零碎。作为阿里云的拳头产品，现已稳固服务于数百个企业客户。

模型前馈网络：

def build_predict_graph(self):
   """Forward function.

   Returns:
     self._prediction_dict: Prediction result of two tasks.
   """
   # 此处从Concatenate后的tensor（all_fea）开始，省略其生成逻辑

   cvr_tower_name = self._cvr_tower_cfg.tower_name
   dnn_model = dnn.DNN(
       self._cvr_tower_cfg.dnn,
       self._l2_reg,
       name=cvr_tower_name,
       is_training=self._is_training)
   cvr_tower_output = dnn_model(all_fea)
   cvr_tower_output = tf.layers.dense(
       inputs=cvr_tower_output,
       units=1,
       kernel_regularizer=self._l2_reg,
       name='%s/dnn_output' % cvr_tower_name)

   ctr_tower_name = self._ctr_tower_cfg.tower_name
   dnn_model = dnn.DNN(
       self._ctr_tower_cfg.dnn,
       self._l2_reg,
       name=ctr_tower_name,
       is_training=self._is_training)
   ctr_tower_output = dnn_model(all_fea)
   ctr_tower_output = tf.layers.dense(
       inputs=ctr_tower_output,
       units=1,
       kernel_regularizer=self._l2_reg,
       name='%s/dnn_output' % ctr_tower_name)

   tower_outputs = {
       cvr_tower_name: cvr_tower_output,
       ctr_tower_name: ctr_tower_output
   }
   self._add_to_prediction_dict(tower_outputs)
   return self._prediction_dict

loss计算：

留神：计算CVR的指标时须要mask掉曝光数据。

def build_loss_graph(self):
   """Build loss graph.

   Returns:
     self._loss_dict: Weighted loss of ctr and cvr.
   """
   cvr_tower_name = self._cvr_tower_cfg.tower_name
   ctr_tower_name = self._ctr_tower_cfg.tower_name
   cvr_label_name = self._label_name_dict[cvr_tower_name]
   ctr_label_name = self._label_name_dict[ctr_tower_name]

   ctcvr_label = tf.cast(
       self._labels[cvr_label_name] * self._labels[ctr_label_name], 
       tf.float32)
   cvr_loss = tf.keras.backend.binary_crossentropy(
       ctcvr_label, self._prediction_dict['probs_ctcvr'])
   cvr_loss = tf.reduce_sum(cvr_losses, name="ctcvr_loss")

   # The weight defaults to 1.
   self._loss_dict['weighted_cross_entropy_loss_%s' %
                     cvr_tower_name] = self._cvr_tower_cfg.weight * cvr_loss

   ctr_loss = tf.reduce_sum(tf.nn.sigmoid_cross_entropy_with_logits(
       labels=tf.cast(self._labels[ctr_label_name], tf.float32),
       logits=self._prediction_dict['logits_%s' % ctr_tower_name]
       ), name="ctr_loss")

   self._loss_dict['weighted_cross_entropy_loss_%s' %
                   ctr_tower_name] = self._ctr_tower_cfg.weight * ctr_loss
   return self._loss_dict

note: 这里loss是 weighted_cross_entropy_loss_ctr + weighted_cross_entropy_loss_cvr, EasyRec框架会主动对self._loss_dict中的内容进行加和。

metric计算：

留神：计算CVR的指标时须要mask掉曝光数据。

def build_metric_graph(self, eval_config):
  """Build metric graph.

  Args:
    eval_config: Evaluation configuration.

  Returns:
    metric_dict: Calculate AUC of ctr, cvr and ctrvr.
  """
  metric_dict = {}

  cvr_tower_name = self._cvr_tower_cfg.tower_name
  ctr_tower_name = self._ctr_tower_cfg.tower_name
  cvr_label_name = self._label_name_dict[cvr_tower_name]
  ctr_label_name = self._label_name_dict[ctr_tower_name]
  for metric in self._cvr_tower_cfg.metrics_set:
    # CTCVR metric
    ctcvr_label_name = cvr_label_name + '_ctcvr'
    cvr_dtype = self._labels[cvr_label_name].dtype
    self._labels[ctcvr_label_name] = self._labels[cvr_label_name] * tf.cast(
        self._labels[ctr_label_name], cvr_dtype)
    metric_dict.update(
        self._build_metric_impl(
            metric,
            loss_type=self._cvr_tower_cfg.loss_type,
            label_name=ctcvr_label_name,
            num_class=self._cvr_tower_cfg.num_class,
            suffix='_ctcvr'))

    # CVR metric
    cvr_label_masked_name = cvr_label_name + '_masked'
    ctr_mask = self._labels[ctr_label_name] > 0
    self._labels[cvr_label_masked_name] = tf.boolean_mask(
        self._labels[cvr_label_name], ctr_mask)
    pred_prefix = 'probs' if self._cvr_tower_cfg.loss_type == LossType.CLASSIFICATION else 'y'
    pred_name = '%s_%s' % (pred_prefix, cvr_tower_name)
    self._prediction_dict[pred_name + '_masked'] = tf.boolean_mask(
        self._prediction_dict[pred_name], ctr_mask)
    metric_dict.update(
        self._build_metric_impl(
            metric,
            loss_type=self._cvr_tower_cfg.loss_type,
            label_name=cvr_label_masked_name,
            num_class=self._cvr_tower_cfg.num_class,
            suffix='_%s_masked' % cvr_tower_name))

  for metric in self._ctr_tower_cfg.metrics_set:
    # CTR metric
    metric_dict.update(
        self._build_metric_impl(
            metric,
            loss_type=self._ctr_tower_cfg.loss_type,
            label_name=ctr_label_name,
            num_class=self._ctr_tower_cfg.num_class,
            suffix='_%s' % ctr_tower_name))
  return metric_dict

试验及有余

咱们基于开源AliCCP数据，进行了大量试验，试验局部请期待下一篇文章。试验发现，ESMM的跷跷板景象较为显著，CTR与CVR工作的成果较难同时晋升。

参考文献

Entire Space Multi-Task Model: An Effective Approach for Estimating Post-Click Conversion Rate
阿里CVR预估模型之ESMM
EasyRec-ESMM应用介绍多任务学习模型之ESMM介绍与实现
注：本文图片及公示均援用自论文：Entire Space Multi-Task Model: An Effective Approach for Estimating Post-Click Conversion Rate。

原文链接
本文为阿里云原创内容，未经容许不得转载。

关于人工智能:多任务学习模型之ESMM介绍与实现

多任务学习背景

论文介绍

1. Sample Selection Bias (SSB)

2. Data Sparsity (DS)

代码实现

试验及有余

评论

发表回复取消回复

更多文章

DDN HPC 存储硬件架构设计深度分析

探秘IO500：从Lustre并行文件系统出发，开启HPC存储性能新征程

苹果iOS打包的ipa应用无法安装？一篇文章带你了解可能的原因及排查方法

图解Golang：从零开始实现简易版过期LRU缓存

关于人工智能:多任务学习模型之ESMM介绍与实现

多任务学习背景

论文介绍

1. Sample Selection Bias (SSB)

2. Data Sparsity (DS)

代码实现

试验及有余

评论

发表回复 取消回复

更多文章

DDN HPC 存储硬件架构设计深度分析

探秘IO500：从Lustre并行文件系统出发，开启HPC存储性能新征程

苹果iOS打包的ipa应用无法安装？一篇文章带你了解可能的原因及排查方法

图解Golang：从零开始实现简易版过期LRU缓存

发表回复取消回复