关于美团:细粒度情感分析在到餐场景中的应用

54次阅读

共计 12399 个字符,预计需要花费 31 分钟才能阅读完成。

经典的细粒度情感剖析(ABSA,Aspect-based Sentiment Analysis)次要蕴含三个子工作,别离为属性抽取、观点抽取以及属性 - 观点对的情感偏向断定三个级联工作。本文介绍了美团到店到餐利用算法团队通过联合学界最先进的浏览了解、注意力机制等方面的实体抽取、情感剖析教训,解决到餐(菜品,属性,观点,情感)四元组抽取问题,并在多个业务场景利用落地,心愿能对从事相干工作的同学有所帮忙或启发。

一、背景

作为一家生存服务在线电子商务平台,美团致力于通过科技链接消费者和商户,致力为消费者提供品质生存。到店餐饮(简称到餐)作为美团的外围业务之一,是满足用户堂食生产需要、赋能餐饮商户在线经营的重要平台,在服务百万级别的餐饮商户和亿级别 C 端用户的过程中,积攒了海量的用户评论信息(User Generated Content, UGC),蕴含了用户到店生产体验之后的真情实感,如果可能无效提取其中的要害的情感极性、观点表白,不仅能够辅助更多用户做出生产决策,同时也能够帮忙商户收集经营情况的用户反馈信息。

近年来,大规模预训练模型(BERT)、提醒学习(Prompt)等 NLP 技术飞速发展。文本分类、序列标注、文本生成各类自然语言解决工作的利用成果失去显著晋升,情感剖析便是其中最常见的利用模式之一。它的工作指标在于通过 NLP 技术手段对输出文本进行剖析、解决、演绎、推理,给出文本情感极性断定的后果。

依照情感极性断定粒度,能够细分为篇章 / 整句粒度情感剖析、细粒度情感剖析(ABSA, Aspect-based Sentiment Analysis)[1]。一般而言,细粒度情感剖析的工作指标次要围绕属性(Aspect Term)、观点(Opinion Term)、情感(Sentiment Polarity)三要素开展,能够拆分为属性抽取、观点抽取以及属性 - 观点对的情感偏向断定三个级联工作[2-5]。例如,对于给定的用户评论“这家店环境不错,但服务很蹩脚”,预期的输入后果为(环境,不错,正向)、(服务,蹩脚,负向)。

到餐算法团队联合到餐业务供应侧、平台侧、需要侧的业务场景,为外围业务链路的智能化提供高效、优质的算法解决方案,通过算法能力辅助业务降本提效。本文联合到餐 B / C 端业务场景,摸索细粒度情感剖析技术在用户评估开掘方向的利用实际。

二、指标回顾

2.1 业务问题

秉承“帮大家吃得更好,生存更好”的使命,到餐面向消费者提供包含套餐、代金券、买单、预订等在内的丰盛产品和服务,并通过黑珍珠餐厅指南、公众点评必吃榜等榜单,以及搜寻、查问、评估等,帮忙消费者更好地作出生产决策。同时,为商家提供一站式的营销服务,帮忙餐饮商户积淀口碑、获取用户、减少复购等,进而轻松治理餐厅。

随着餐饮连锁化减速、行业竞争格局强烈,商户治理宽幅和难度逐渐加大,商户的经营要求更加精密,数据管理意识更加迫切。用户历史评论中蕴含着大量用户生产后的反馈,是情感剖析的重要组成部分,不仅可能形容生产感触,同时也能反映出就餐环境的好坏。因而,做好情感剖析有利于帮忙餐饮门店晋升服务质量,也可能更好地促成生产体验。

UGC 评估剖析,次要是从评论文本中挖掘出菜品、服务、食品安全(简称食安)等方面相干信息,获取用户在各个维度的细粒度情感,粗疏刻画商家的服务现状,如上图 2 所示。对于餐饮商户,菜品、服务、食安评估剖析问题能够拆解如下:

  1. 菜品评估,次要包含用户评论中的菜品辨认、评估属性提取、菜品观点提取、观点情感分类;
  2. 服务评估,次要包含用户评论中评估属性提取、服务方面观点提取、观点情感分类;
  3. 食安评估,次要包含用户评论中评估属性提取、食安方面观点提取、观点情感分类。

其中问题 2 和 3 是典型的三元组抽取工作,即辨认服务或食安方面的(属性,观点,情感)。对于问题 1,在服务、食安评估问题的根底上,菜品评估须要辨认评论中提及的菜品,相比业界四元组(属性,观点,属性类别,情感)[6]抽取工作,到餐场景下次要为 (菜品,属性,观点,情感)四元组的辨认。

2.2 技术调研

在美团外部,咱们针对 UGC 评估剖析问题,调研了相干工作成绩,次要为基于 MT-BERT 预训练模型开发了多任务模型,试图解决情感剖析中的 ACSA (Aspect-Category Setiment Analysis) 问题以及(属性,观点,情感)三元组抽取问题,并实现了句子粒度的情感分类工具开发,同时开源了基于实在场景的中文属性级情感剖析数据集 ASAP[7-9]。但对于美团到餐业务来说,咱们须要基于具体场景提出针对性的解决方案,如四元组抽取工作,不能间接复用其余团队的相干技术和工具,因而有必要建设服务于到餐业务场景的细粒度情感剖析技术。

在业界,咱们也调研了行业其余团队如腾讯、阿里在细粒度情感剖析方面的相干钻研。2019 年腾讯 AI Lab 和阿里达摩院单干 [3],提出了基于两个重叠的 LSTM 和三个组件(边界疏导、情感一致性和意见加强)的模型,将“BIOES”标注体系与情感正向(Positive)、中性(Neutral)、负向(Negative)联合造成对立标签,能够同时辨认属性和情感。同年,阿里达摩院提出了 BERT+E2E-ABSA 模型构造,进一步解决属性和情感的联结抽取问题[10],同时提出(属性,观点,情感)[2] 三元组抽取工作,并给出了两阶段解决框架,首先别离辨认出属性(情感交融为对立标签)和观点,而后判断属性 - 观点是否配对。

自此,业界后续钻研开始向三元组联结抽取开展 [11-14]。2021 年 2 月,华为云[6] 提出(属性,观点,属性类别,情感)四元组抽取多任务模型,其中一个工作辨认属性和观点,另一个工作辨认属性类别和情感。2021 年 4 月,腾讯 [15] 引入 Aspect-Sentiment-Opinion Triplet Extraction(ASOTE)工作,提出了一个地位感知的 BERT 三阶段模型,解决了(属性,观点,情感)三元组抽取问题。

调研机构行业预训练模型细粒度情感剖析问题浏览了解问题三元组问题四元组问题联结抽取问题
阿里达摩院[2,10]电子商务
华为云[6]云服务
腾讯[15]社交
美团到餐本地生存

从学术界来看,更关注于如何更好地进行实体抽取、情感分类以及多任务的联结抽取,可能会疏忽工业界落地更关注的计算时效性(如多维度标注与情感维度整合,减少计算、存储资源耗费,在无限资源下时长提早)、成果准确性(如工作模块端到端开发,疏忽业务的个性化,间接复用导致准确性升高)等方面要求,导致相干技术办法并不能间接利用于业务场景,须要进一步开发欠缺能力实现业务的落地。

如上表所示,针对以上调研,咱们借鉴了美团搜寻与 NLP 部在三元组细粒度情感剖析方面的教训,拆解到餐四元组抽取问题,并联合学界最先进的浏览了解、注意力机制等方面的实体抽取、情感分类教训,设计开发了利用于到餐业务的细粒度情感剖析解决方案。

2.3 技术指标

如上文所述,菜品评估次要关注菜品、评估属性、菜品观点和观点情感,而服务、食安评估问题,次要关注服务或食安方面的评估属性、观点和情感。就细粒度情感剖析工作而言,能够看出,前一个问题波及四元组信息,而后两个问题仅波及三元组信息。

2.4 次要挑战

因为三元组问题能够看作是四元组问题的子问题,不失一般性,下文将重点论述四元组相干技术挑战。

问题 3 :如何同时对四元组抽取、辨认,缩小 pipeline 办法的谬误累计影响?

缩小 pipeline 办法的谬误累计影响,典型的解决方案是提出同时解决信息抽取和分类工作,即多任务学习。传统的办法是间接尝试多任务学习的思路,但过程中疏忽了实体间依赖的关系,甚至近程关联关系[2]。以后也在尝试间接将四元组转化成多任务学习过程,未来冀望通过建设实体间 pair 或 triplet 关系,进行联结抽取、辨认。

综上,对于 问题 1 问题 2 ,咱们会依照 pipeline 辨认的后果,再利用策略进行抽取后果的优化;对于 问题 3 ,整合实体、关系及分类工作,进行联结学习,将有助于缩小 pipeline 办法的谬误累计影响。

三、细粒度情感剖析实际

3.1 Pipeline 办法

如上文 2.3 的问题 2 所述,咱们采纳 pipeline 的办法,将四元组抽取问题拆解为三个工作,分为实体辨认、观点抽取、观点类别和情感分类,如下图 4 所示:

3.1.1 实体辨认

自 2018 年 BERT[16]呈现当前,NER 模型由传统的 LSTM+CRF 替换为 BERT+CRF(或者 BERT+LSTM+CRF),一度是业界 NER 工作的 SOTA 模型,近两年来 NER 工作次要从以下两个方面进行改良:

  1. 退出额定的特色[17-19]:如字特色、词特色、词性特色、句法特色、常识图谱表征;
  2. 转换工作模式[20-21]:将 NER 工作转化为问答(QA, Question Answering)工作或者机器翻译工作。

思考到引入额定特色须要构建人工词典,以及转化问答工作模式依赖于人工模板,老本较高,因而采纳 BERT+CRF 模型。

学习率调整,模型策略调优。在试验过程中,咱们发现 BERT+CRF 相比简略的 BERT+Softmax 成果晋升甚微,究其原因,因为预训练模型通过微调之后能够学习到具备显著区分度的特色,导致减少 CRF 层对实体辨认后果简直没有影响。然而,一个好的 CRF 转移矩阵显然对预测是有帮忙的,能够为最初预测的标签增加束缚来保障预测后果的合理性。进一步试验后发现,通过调整 BERT 和 CRF 层的学习率,如 BERT 应用较小的学习率而 CRF 层应用 100 倍于 BERT 的学习率(即 $e2/e1>100$,如图 5 所示),最终 BERT+CRF 的成果相比 BERT+Softmax 有了较显著的晋升。此外,在传统 NER 模型 LSTM+CRF 根底上,咱们也试验了 BERT+LSTM+CRF,但成果竟然有些许降落,而且预测工夫也减少了,因而最终没有引入 LSTM 层。

3.1.2 观点抽取

观点抽取工作在业界也称为 Target-oriented Opinion Words Extraction(TOWE),旨在从评论句子中抽取出给定指标对应的观点词。观点抽取也能够看作是一种 NER 工作,但若评论波及多个实体和观点,如何精确抽取所有“实体 - 观点”关系是一个技术挑战。借鉴 MRC(Machine Reading Comprehension)工作的思维,通过构建正当的 Query 引入先验常识,辅助观点抽取。

QA 工作模式,观点抽取建模 。如图 6 所示,模型整体由预训练层和输入层两局部组成。输入层咱们应用了惯例 QA 工作输入,包含开始标签(Start Label)和完结标签(End Label),但须要人工设计 Quey。参考论文[20] 教训,以图 3 为例,试验发现 Query 设计为“找出鲜虾馅饺子口味、口感、重量、食材、卖相、价格、卫生以及整体评估”成果最好,可能融入了观点形容信息,更加有助于观点抽取。思考到 QA 工作人造有类别不均衡的问题,因而损失函数引入针对类别不均衡的 Focal Loss,用于晋升观点抽取模型的成果。因为观点抽取也能够看作是 NER 工作,故咱们尝试将输入层设计为 CRF 层,但试验成果并不现实,可能因为观点语句长度不一且比拟个性化,影响模型辨认。另一方面,思考到 Google 中文预训练模型 BERT 是以字粒度为切分,没有思考到传统 NLP 中的中文分词,在预训练层咱们将 BERT 模型替换为哈工大开源的中文预训练模型,如 BERT-wwm-ext、RoBERTa-wwm 等,最终模型成果获得进一步晋升。

3.1.3 观点类别和情感分类

观点类别和情感分类能够看作两个分类工作,其中菜品评估四元组工作的观点类别蕴含口感、口味、重量、食材、卖相、价格、卫生、菜品整体等 8 个标签,而情感蕴含正向、中性、负向、未提及等 4 个标签,都是业务预约义好的。思考到用户评论提及某个菜品的观点可能波及多个维度,若每个维度独自建模,须要构建多个模型,较简单且保护艰难。联合 ATAE-LSTM[22]和 NLP 核心 [7-9] 情感剖析的教训和到餐业务特点,模型整体结构设计为多任务多分类学习框架。

多任务多分类模型,联结建模观点类别和情感。如图 7 所示,模型整体分为两个局部,别离为 BERT 共享层和 Attention 独享层,其中 BERT 共享层学习观点 Embedding 示意,Attention 独享层学习观点在各个观点类别的情感偏向。思考到评论中各局部会聚焦不同的观点维度,通过引入 Attention 构造,使得模型更加关注特定维度相干的文本信息,进而晋升整体成果。

3.2 联结学习

pipeline 办法的长处是将指标问题拆分为多个子模块问题,对子模块别离优化,通过后处理能在肯定水平上解决实体间多对多关系的问题。然而,pipeline 办法也会存在一些致命缺点,次要包含:

  1. 误差流传,实体辨认模块的谬误会影响到观点抽取模型的性能;
  2. 疏忽了工作之间的关联性,如实体和观点往往一起呈现,如果能够晓得观点,那么也能判断出所形容的实体,而 pipeline 办法显然不能利用这些信息;
  3. 信息冗余,因为须要对辨认进去的实体都要进行观点抽取,以及提取出的观点都要进行分类,产生一些有效的匹配对,晋升错误率。

参考业界情感剖析联结学习现状,次要为(属性,观点,情感)三元组联结抽取。联合到餐业务场景特点(如挑战 2.3 的问题 2 所述),整体设计为两阶段模型,第一阶段为对菜品实体、观点和情感联结训练,第二阶段为对观点进行分类,进而失去四元组辨认的后果。

3.2.1 三元组联结抽取

目前在学术界,三元组(属性,观点,情感)联结抽取的办法次要包含序列标注办法 [11]、QA 办法[5,12]、生成式办法[13,14] 等。联合菜品剖析场景和 pipeline 办法中观点抽取模块的教训,咱们采取了 QA 式的联结抽取办法,次要参考模型 Dual-MRC[5]

Dual-MRC 模型的改良,三元组联结抽取建模。在模型设计过程中,因为 Dual-MRC 模型分类情感偏向是对某个属性的整体评估,即一个属性只对应一个情感。然而,在到餐业务场景中,新增了菜品实体的辨认,同时 UGC 评论中存在对同一个菜品实体蕴含不同观点及情感偏向。如图 3 所示,“滋味特地好”表白了对“鲜虾饺子”正向情感,而“有点贵”显然表白了负面情感。因而,咱们对 Dual-MRC 模型进行了革新,将观点和情感标签整合成对立标签。如图 8 所示,到餐 Dual-MRC 整体构造基于双塔 BERT 模型,通过引入两个 Query,右边负责抽取菜品实体,左边负责抽取观点和观点情感,从而实现三元组联结抽取。

模型构造阐明:

  1. 整体是由两个局部组成,右边 BERT 抽取菜品实体,左边 BERT 抽取观点和观点情感,将观点和情感形成对立标签 B -{POS,NEU,NEG},I-{POS,NEU,NEG}以及 O,其中未提及情感被整合到 O 标签中;
  2. 参考 pipeline 办法教训,构建两个 Quey,右边 Quey1 构建为“找出评论中的菜品”,左边 Quey2 构建为“找出鲜虾馅饺子口味、口感、重量、食材、卖相、价格、卫生以及整体评估”;
  3. 训练阶段,对于右边标注的每个菜品实体,都须要反复左边流程,两边模型共享参数进行训练;预测阶段,因为实体不可知,采纳 pipeline 形式,首先右边局部抽取出所有的菜品实体,而后对于每个实体输出到左边局部,抽取出观点和观点情感。

在此基础上,咱们也摸索了四元组联结抽取的可能,具体操作为对左边 Query2 进行革新,如“找出鲜虾馅饺子口味评估”,对于每个观点类别都须要构建 Query 进行预测,从而实现四元组联结抽取。但思考计算量级较大且耗时较长,最终将观点类别另做预测。

3.2.2 观点类别分类

观点类别分类,显然是一个文本分类问题,通常做法是基于 BERT 分类,取 [CLS] 地位的 Embedding,接一个全连贯层和 Softmax 层即可。在到餐业务场景中,次要面临少样本问题,参考业界 NLP 少样本解决办法,以基于比照学习的 R -drop[23]办法和基于 Prompt[24]的第四范式为代表。咱们在 BERT 模型构造根底上,别离试验了 Prompt 模板办法(如图 9 所示)和 R -drop 数据加强(如图 10 所示)。其中,Prompt 模板次要借鉴 P -tuning[25]的思维,采取自动化构建模板的形式,基于 MLM 工作解决问题。

图 9 中 [u1]~[u6] 代表 BERT 词表里边的[unused1]~[unused6],即应用未呈现的 Token 构建模板,Token 数目为超参数。试验后果发现,基于 BERT 的预训练模型,联合 P -tuning 或 R -drop 构造,分类成果都能失去肯定的晋升,且 P -tuning 的成果略优于 R -drop,后续还会继续摸索少样本解决办法。

四、在到餐业务中的利用

4.1 模型成果比照

利用到餐的 UGC 标注数据,对于四元组辨认进行了整体成果测评,最终以整体四元组的准确率和召回率计算 F1 值作为性能评估指标。如图 11 所示,采纳经典的 BERT+CRF 模型进行实体抽取,在到餐评论标注数据仅达到 0.61 的 F1,通过学习率等调参(Baseline Tuning)优化之后,F1 值晋升 2.61%。如上文所述,在观点抽取模块中,将序列标注问题转化成问答(QA)问题后,采纳 BERT+MRC 模型,F1 显著晋升至 0.64,晋升了 5.9%,表明问题转化取得较大收益。此外,采纳哈工大中文预训练 BERT 仍获得肯定幅度的晋升,F1 晋升至 0.65。留神,图 11 中的模型迭代示意四元组问题中重点优化模块的模型,最终评测四元组整体成果来进行比照剖析。

4.2 业务利用场景

品牌仪表盘

品牌仪表盘作为旗舰店能力的重要环节,提供品牌层面的数据服务,助力生意增长。产品定位为头部餐饮品牌的数据中心,具备根底的数据披露能力,通过量化业务成果,领导商户经营决策。因为大客在平台积淀了丰盛的线上信息(大量的交易 / 流量 / 评论数据),可开掘剖析空间较大。利用细粒度情感剖析技术从评论数据中开掘菜品维度、服务维度、食品安全维度相干信息,量化商户经营体现,领导经营动作。对于菜品的用户反馈监控,品牌商户更关注菜品、口味、口感等维度的用户反馈。如上文所述模型迭代后,菜品情感、口味情感、口感情感辨认准确率都失去肯定的晋升。

到餐商户菜品信息优化

随着到餐增强了菜品信息建设,次要包含在生产层面上,整合了商户各起源菜品数据,建设了商户菜品核心,并优化了 C 端菜品 UGC 上传性能,无效补充 UGC 菜品生产;在生产层面上,整合了商户通菜品和网友举荐菜菜品,并基于菜品信息的欠缺,优化了 C 端菜品信息的内容聚合及展现生产。同时配合到餐业务,继续通过评估信息生产建设赋能,更多的疏导用户从评估生产层面进行商户菜品的形容介绍。次要针对到餐商户菜品关联的评估信息,进行信息联动与展现层面的优化,相比迭代前,有评估菜品覆盖率失去较大的晋升。

开店宝评估治理

商家通过提供餐饮服务来获取用户,用户生产后通过评估给商家以反馈,促使商家去一直优化,提供更好的服务,从而获取更多的用户,达到正向循环。评估剖析的意义在于建设起评估和餐饮服务之间的通道,实现评估对服务的正向促成循环。通过剖析评估内容,帮忙商家发现餐厅在菜品、服务、环境等方面,做得好和做得不好的中央,进而针对性的改善。相比迭代前,菜品、服务、环境维度关联评论数失去很大的晋升。

五、将来瞻望

通过近一年的建设,情感剖析相干能力岂但胜利利用到到餐商户经营、供应链等业务,而且优化了多源菜品信息,辅助品牌商户进行用户反馈监控,晋升商户服务能力。在联结学习摸索上,目前次要将四元组问题转化为两阶段模型,如图 11 所示,F1 值有所降落,仅达到 0.63。究其原因,可能是在三元组联结抽取模型中,疏忽了实体间的关系,尤其长程关系 (如上文 2.4 的问题 3 所述),导致性能有余预期。接下来,将进一步晋升情感剖析四元组抽取能力,开掘 UGC 中用户的外围需要以及重要反馈。在技术方面,将继续进行模型迭代演进,次要波及:

  1. 继续优化现有模型,保证质量的同时也要晋升效率

    试验后果还有很大的改良空间,须要进一步摸索模型优化办法,如优化预训练模型,应用 MT-BERT 等,以及在联结抽取中进一步引入实体间关系,来晋升四元组抽取的性能。

  2. 深度摸索情感剖析畛域,建设四元组联结抽取模型

    次要通过革新 Query 实现四元组抽取,然而计算量级较大,须要摸索模型构造优化,缩小冗余的计算量,使其满足四元组联结抽取。

  3. 建设细粒度情感剖析通用框架

    到餐场景波及多个情感剖析场景,须要建设灵便不便的通用框架,有助于疾速反对业务,以及缩小资源耗费。

将来,团队将继续优化利用技术,解决到餐业务场景中的情感剖析需要。细粒度情感剖析是具备挑战和前景的工作,到店餐饮算法团队将和各位读者独特继续摸索和钻研。

六、参考文献

  • [1] Liu, B. 2012. Sentiment analysis and opinion mining. Synthesis lectures on human language technologies 5(1):1–167.
  • [2] Peng, H. Xu, L. Bing, L. Huang, F. Lu, W. and Si, L.2020. Knowing What, How and Why: A Near Complete Solution for Aspect-Based Sentiment Analysis. In AAAI, 8600–8607.
  • [3] Li, X. Bing, L. Li, P. and Lam, W. 2019a. A unified model for opinion target extraction and target sentiment prediction. In AAAI, 6714–6721.
  • [4] Zhao, H. Huang, L. Zhang, R. Lu, Q. and Xue, H. 2020. SpanMlt: A Span-based Multi-Task Learning Framework for Pair-wise Aspect and Opinion Terms Extraction. In ACL, 3239–3248.
  • [5] Y. Mao, Y. Shen, C. Yu, and L. Cai. 2021. A joint training dual-mrc framework for aspect based sentiment analysis. arXiv preprint arXiv:2101.00816.
  • [6] 华为云细粒度文本情感剖析及利用
  • [7] 杨扬、佳昊等. 美团 BERT 的摸索和实际.
  • [8] 任磊,步佳昊等. 情感剖析技术在美团的摸索与利用.
  • [9] Bu J, Ren L, Zheng S, et al. ASAP: A Chinese Review Dataset Towards Aspect Category Sentiment Analysis and Rating Prediction. In Proceedings of the 2021 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies. 2021.
  • [10] Xin Li, Lidong Bing, Wenxuan Zhang, and Wai Lam. Exploiting BERT for end-to-end aspect-based sentiment analysis. In W-NUT@EMNLP, 2019.
  • [11] Xu, L. Li, H. Lu, W. and Bing, L. 2020. Position-Aware Tagging for Aspect Sentiment Triplet Extraction. In EMNLP, 2339–2349.
  • [12] Chen, S. Wang, Y. Liu, J. and Wang, Y. 2021a. Bidirectional Machine Reading Comprehension for Aspect Sentiment Triplet Extraction. In AAAI.
  • [13] Yan, H. Dai, J. Qiu, X. Zhang, Z. et al. 2021. A Unified Generative Framework for Aspect-Based Sentiment Analysis. arXiv preprint arXiv:2106.04300.
  • [14] Wenxuan Zhang, Xin Li, Yang Deng, Lidong Bing, and Wai Lam. 2021. Towards Generative Aspect-Based Sentiment Analysis. In ACL/IJCNLP 2021, 504–510.
  • [15] Li Yuncong, Fang Wang, Zhang Wenjun, Sheng-hua Zhong, Cunxiang Yin, & Yancheng He. 2021. A More Fine-Grained Aspect-Sentiment-Opinion Triplet Extraction Task. arXiv: Computation and Language.
  • [16] Devlin, J. Chang, M.-W. Lee, K. and Toutanova, K. 2019. BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding. In NAACL-HLT, 4171–4186.
  • [17] Yue Zhang and Jie Yang. 2018. Chinese ner using lattice lstm. arXiv preprint arXiv:1805.02023.
  • [18] Li, X. Yan, H. Qiu, X. and Huang, X. 2020. FLAT: Chinese NER Using Flat-Lattice Transformer. arXiv preprint arXiv:2004.11795 .
  • [19] Tareq Al-Moslmi, Marc Gallofré Ocaña, Andreas L. Opdahl, and Csaba Veres. 2020. Named entity extraction for knowledge graphs: A literature overview. IEEE Access 8 (2020), 32862– 32881.
  • [20] X. Li, J. Feng, Y. Meng, Q. Han, F. Wu, and J. Li. 2020. A unified MRC framework for named entity recognition. In ACL, 5849–5859.
  • [21] Jana Strakova, Milan Straka, and Jan Hajic. 2019. Neural architectures for nested ner through linearization. In Proceedings of the 57th Annual Meeting of the Association for Computational Linguistics, 5326–5331.
  • [22] Yequan Wang, Minlie Huang, Li Zhao, and Xiaoyan Zhu. 2016. Attention-based lstm for aspect-level sentiment classification. In Proceedings of the conference on empirical methods in natural language processing, 606–615.
  • [23] Liang X, Wu L, Li J, et al. R-Drop: Regularized Dropout for Neural Networks[J]. arXiv preprint arXiv:2106.14448, 2021.
  • [24] P. Liu, W. Yuan, J. Fu, Z. Jiang, H. Hayashi, and G. Neubig. 2021. Pre-train, prompt, and predict: A systematic survey of prompting methods in natural language processing. arXiv preprint arXiv:2107.13586.
  • [25] X. Liu, Y. Zheng, Z. Du, M. Ding, Y. Qian, Z. Yang, and J. Tang. 2021. Gpt understands, too. arXiv preprint arXiv:2103.10385.

七、术语解释

术语解释
ABSA细粒度情感剖析,Aspect-based Sentiment Analysis
NER命名实体辨认,Named Entity Recognition
TOWE面向指标的观点词抽取,Target-oriented Opinion Words Extraction
MRC浏览了解,Machine Reading Comprehension
MLM语言掩码模型,Masked Language Model
BERT基于变换器的双向编码器示意,Bidirectional Encoder Representations from Transformers
CRF条件随机场,Conditional Random Fields
LSTM长短期记忆,Long Short-Term Memory
R-drop基于 dropout 的正则策略,regularization strategy upon dropout

八、作者介绍

储哲、王璐、润宇、马宁、建林、张琨、刘强,均来自美团到店事业群 / 平台技术部。

九、招聘信息

美团到店平台技术部的到餐业务数据策略组菜品常识图谱方向次要负责将菜品常识利用到到餐相干业务,使命是为到餐业务提供高效、优质、智能的利用算法解决方案。基于海量的到餐业务数据,利用前沿的实体抽取、关系开掘、实体表征学习、细粒度情感剖析、小样本学习、半监督学习等算法技术,为到餐业务提供算法能力反对。

业务数据策略组菜品常识图谱方向长期招聘自然语言解决算法专家 / 机器学习算法专家,感兴趣的同学能够将简历发送至 hejianlin@meituan.com。

浏览美团技术团队更多技术文章合集

前端 | 算法 | 后端 | 数据 | 平安 | 运维 | iOS | Android | 测试

| 在公众号菜单栏对话框回复【2020 年货】、【2019 年货】、【2018 年货】、【2017 年货】等关键词,可查看美团技术团队历年技术文章合集。

| 本文系美团技术团队出品,著作权归属美团。欢送出于分享和交换等非商业目标转载或应用本文内容,敬请注明“内容转载自美团技术团队”。本文未经许可,不得进行商业性转载或者应用。任何商用行为,请发送邮件至 tech@meituan.com 申请受权。

正文完
 0