关于自然语言处理:电商搜索能力解读实体识别NER

9次阅读

共计 3612 个字符,预计需要花费 10 分钟才能阅读完成。

简介:搜寻是电商行业业务转化中最重要的性能,那你理解其中的技术实现原理吗?一起来理解基于多年淘系全量数据和知识库深刻优化的电商行业实体辨认的能力吧,在查问剖析和类目预测中能带来哪些优化成果那~

实体辨认性能介绍

实体辨认,全称命名实体辨认(Named Entity Recognition,简称 NER),指对电商查问词中的具备特定意义的语义实体进行实体词打标识别其中的品牌、品类、品类润饰、型号、样式等 40 品种别。查问剖析依据辨认的后果,根据实体类型的权重对查问词进行改写,使得召回的文档合乎查问的用意。

<span class=”lake-fontsize-11″> 类别 </span>
<span class=”lake-fontsize-11″> 一般词 </span> <span class=”lake-fontsize-11″> 材质 </span> <span class=”lake-fontsize-11″> 格调 </span> <span class=”lake-fontsize-11″> 样式元素 </span>
<span class=”lake-fontsize-11″> 色彩 </span> <span class=”lake-fontsize-11″> 品牌 </span> <span class=”lake-fontsize-11″> 性能效用 </span> <span class=”lake-fontsize-11″> 尺寸规格 </span>
<span class=”lake-fontsize-11″> 品质成色 </span> <span class=”lake-fontsize-11″> 场景 </span> <span class=”lake-fontsize-11″> 人群 </span> <span class=”lake-fontsize-11″> 套装 </span>
<span class=”lake-fontsize-11″> 工夫节令 </span> <span class=”lake-fontsize-11″> 型号 </span> <span class=”lake-fontsize-11″> 新品 </span> <span class=”lake-fontsize-11″> 系列 </span>
<span class=”lake-fontsize-11″> 营销服务 </span> <span class=”lake-fontsize-11″> 地点地区 </span> <span class=”lake-fontsize-11″> 人名 </span> <span class=”lake-fontsize-11″> 娱乐书文曲 </span>
<span class=”lake-fontsize-11″> 机构实体 </span> <span class=”lake-fontsize-11″> 影视名称 </span> <span class=”lake-fontsize-11″> 游戏名称 </span> <span class=”lake-fontsize-11″> 数字 </span>
<span class=”lake-fontsize-11″> 单位 </span> <span class=”lake-fontsize-11″> 品类 </span> <span class=”lake-fontsize-11″> 新词 </span> <span class=”lake-fontsize-11″> 润饰 </span>
<span class=”lake-fontsize-11″> 专有名词 </span> <span class=”lake-fontsize-11″> 品类修饰词 </span> <span class=”lake-fontsize-11″> 符号 </span> <span class=”lake-fontsize-11″> 前缀 </span>
<span class=”lake-fontsize-11″> 后缀 </span> <span class=”lake-fontsize-11″> 赠送 </span> <span class=”lake-fontsize-11″> 否定 </span> <span class=”lake-fontsize-11″> 代理 </span>

## 凋谢搜寻实体辨认劣势

基于多年淘系全量数据和知识库深刻优化电商行业实体辨认能力,解决品牌更新快歧义大,品类存在润饰关系,品牌品类搭配关系等问题。解决尤其在中文上因为不足人造分隔符,面临边界歧义、语义歧义、嵌套歧义等艰难。

## 实体辨认在查问剖析中作用

1. 作用于 query 改写:

凋谢搜寻查问剖析能够改写两个 query,第一个 query 更精准,第二个 query 缩小了参加召回的 term,旨在当更准确的召回后果数有余时,用第二个 query 进行扩充召回。query 改写次要依据实体的重要性,召回时保留重要性高的实体词,对重要性低的局部不影响召回,只影响算法排序。

实现形式

   实体重要性目前分为高、中、低三档。其中“品牌、品类”是在低档,也就是最重要的;其次“格调、样式、色彩、节令、人群、地点…”处于中档;最初“尺寸、修饰词、影响服务、系列、单位…”处于低档,能够抛弃不参加召回。

2. 与类目预测一起应用

query 中不同的实体对类目标影响是不一样的,因而,当原 query 没有类目预测的后果时,会依据肯定的规定,去掉和类目用意无关或者相关度低的词后,进行类目预测, 这对长尾 query 的类目预测会有很大的帮忙.

示例:

杨幂 (人名) 同款 (后缀) 秋季 (工夫节令) 修身 (样式元素) 连衣裙(品类)”丢词后的 query 依照优先级排序别离为:

秋季修身连衣裙

秋季连衣裙
修身连衣裙
连衣裙

零碎会依照上述程序顺次查问类目预测的后果

更多类目预测性能详介绍:https://help.aliyun.com/document\_detail/69036.html

## 电商行业增强版实体辨认能力再降级

凋谢搜寻打造独有的行业智能搜寻解决方案,推出 电商行业增强版,其中在实体辨认能力上进行了再降级,使得实体打标成果更好,能够更精准的定位用户搜寻用意满足商品搜寻需要。

* 现有框架知识库更新

基于老模型链路从新构建全量知识库,F1 69 -> 74

* 标注训练数据,应用神经网络模型

标注 10 万条数据,耗时 4 个月,BiLSTM-CRF 模型,F1 74 -> 78

* 神经网络模型联合知识库

技术创新 GraphNER 框架联合监督模型与知识库,F1 78 -> 82

## 实体辨认干涉词典

业务场景不同,实体辨认语义也是不同的,为了不便用户应用,凋谢搜寻提供实体辨认干涉词典,供用户自定义词的语义,目前实体辨认的干涉次要包含两个:一是对实体辨认后果自身的干涉,二是实体类型重要性的干涉。当实体辨认的后果不准时,应该通过实体辨认的干涉词典的配置来进行干涉。通过创立实体辨认干涉词典,并在查问剖析中实体辨认配置相应的干涉词典,就能够干涉实体辨认性能。

例如:业务非凡专有名词,须要进行实体辨认干涉。

用户搜寻“小熊(Bear)婴儿指甲刀护理套装“,其中“小熊”“bear”实体辨认后果为:一般词,但理论业务上“小熊(bear)”是一家母婴品牌,这时能够应用干涉词典,设置为“品牌”,从而影响召回排序的成果。

## 实际后的搜寻性能比照

1. 搜寻“荷兰美素佳儿婴幼儿奶粉“分词成果
• Before:“荷兰 美 素 佳 儿 婴幼儿 婴 幼 儿 奶粉 奶 粉”
• After: “荷兰(地点地区) 美素佳儿(品牌)婴幼儿(人群) 奶粉(品类)”

2. 搜寻“冬季新款凉鞋男童”
• Before:3 个召回后果,
• After:22 个召回后果
** 利用实体辨认性能:定位搜寻关键词
实体辨认:“冬季”工夫节令,“男童”人群;“新款 ” 新品;;“凉鞋”品类;**

Query1:“凉鞋”“冬季”“男童”;

Query2:“凉鞋”

*

## 阿里云搜寻相干产品举荐

凋谢搜寻(OpenSearch):基于阿里巴巴自主研发的大规模分布式搜索引擎搭建的一站式智能搜寻业务开发平台,目前为包含淘宝、天猫在内的阿里团体外围业务提供搜寻服务反对。通过内置各行业的查问语义了解、机器学习排序算法等能力,提供充沛凋谢的引擎能力,助力开发者疾速搭建更高性能、更高搜寻基线成果的智能搜寻服务

理解产品详情:https://www.aliyun.com/product/opensearch

理解更多电商行业搜寻解决方案:https://www.aliyun.com/page-source//data-intelligence/activity/opensearch

> 版权申明:本文内容由阿里云实名注册用户自发奉献,版权归原作者所有,阿里云开发者社区不领有其著作权,亦不承当相应法律责任。具体规定请查看《阿里云开发者社区用户服务协定》和《阿里云开发者社区知识产权爱护指引》。如果您发现本社区中有涉嫌剽窃的内容,填写侵权投诉表单进行举报,一经查实,本社区将立即删除涉嫌侵权内容。

正文完
 0