从人工到机器智能盗版监测在-AI-时代如何破局

38次阅读

共计 1652 个字符，预计需要花费 5 分钟才能阅读完成。

简介： 随着 5G 时代来临，新媒体行业快速发展，盗版传播平台多样化、形式多样化，版权方难以通过有限的人力实现最大限度的维权。根据 MUSO 报告显示 2017 年盗版网站访问量达到 3000 亿次。人工智能逐渐成熟，盗版监测覆盖难、查找难的问题将迎刃而解。那么如何运行将人工智能技术运用到盗版监测中？

作者 | 阿里文娱高级开发工程师千起

随着 5G 时代来临，新媒体行业快速发展，盗版传播平台多样化、形式多样化，版权方难以通过有限的人力实现最大限度的维权。根据 MUSO 报告显示 2017 年盗版网站访问量达到 3000 亿次。人工智能逐渐成熟，盗版监测覆盖难、查找难的问题将迎刃而解。
那么如何运行将人工智能技术运用到盗版监测中？我们先从一个例子开始：下面是一个普通用户查找盗版资源的过程：

上面的例子中有两个操作：搜索查找 + 结果筛选。其中“结果筛选”是用户阅读搜索结果，并确认当前结果是否包含盗版内容。这一过程在人工智能领域叫识别，因为用户阅读的是文字，所以我们叫它：自然语言识别。
普通用户可以很容易的判断出“哪些搜索结果包含盗版内容？”，那么机器是怎样模拟阅搜索结果呢？下面我们分析 3 个典型的盗版搜索例子。

1）归类“判断难点”名称近似类：系列类影片、名称包含类影片；
（1）主题不相关类：结果是资讯、新闻、彩票、广告等等信息；
（2）同名影片类：相同影片的歌曲、游戏、戏剧、通用名词等有歧义的信息；
（3）变换类：影片名称缩写、人工故意添加的干扰信息。

1）自然语言识别中怎样处理这几种情况？
（1）名称近似类：
答：回想一下人是怎样处理的？如果一个人是它知道所有影片信息，那么他就知道两个影片是不一样的。这类问题在自然语言中属于知识图谱（Knowledge Graph，简写：KG）的范畴。
（2）主题不相关类：结果是资讯、新闻、彩票、广告等等信息；
答：普通人因为有一些背景知识，是知道哪些是属于新闻类，哪些属于广告类。由于这些分类是有限的，所以自然语言中通常使用文本分类（Text classification）。常见的文本分类有二分类和多分类（输出大于 2 种分类结果）。
（3）同名影片类：相同影片的歌曲、游戏、戏剧、通用名词等有歧义的信息；
答：识别同名需要有两步。第一步提取句子中的影片实体名称，第二步辨别句子描述的是哪个领域的影片。这里需要自然语言领域中的实体识别 (Named-entity recognition，简写：NER)+ 文本分类。通俗讲，实体识别是找中句子中的影片，而文本分类是区分这个句子说的是哪个领域的影片。
（4）变换类：影片名称缩写、人工故意添加的干扰信息。
答：这类问题和问题 1）一样，这类问题在自然语言中属于知识图谱（Knowledge Graph，简写：KG）的范畴。模型需要背景知识，知道影片有哪些缩写。

在自然语言处理领域通过有三部分。分别为：文本预处理、特征计算、模型训练 / 预测。
文本预处理：清洗样本，并将文本格式、符号转化为统一的形式；
特征计算：将文本转化为数字。这一步可以使用特征工程，或者词袋（oneHot）、文本嵌入（word embedding）模型、深度 Transformer 模型。
模型训练 / 预测：选择合适的模型算法，训练模型。模型方面可以使用决策树类型（例如：XGBoost、LightGBM、Deep Forest 等等），也可以使用深度网络（例如：LSTM、BERT、Transformer-XL 等等）。当然也可以使用多个模型（一个模型的输出，作为一个模型的输入）

那么模型是什么样子的？

下面是从样本输入到模型产出，落地一个模型需要做的步骤：

这篇文章中提到的方法已经落地到实际工程中，准确率可以达到超越人工盗版结果判断水平。目前自然语言仍然有非常强的业务领域特点，不同业务领域会遇到不同的行业特定问题，而且前沿的模型提供原生的英文支持，所以在工程落地场景中，需要结合实际业务场景不断的优化模型。

正文完

人工智能

发表至：人工智能

2020-05-27

0

关于人工智能:第四范式获信通院尖峰开源项目及开源人物双料大奖

关于人工智能:博士真的很难熬吗

关于人工智能:Hugging-News-0519-我们把-HuggingChat-开源了

关于人工智能:SSL证书与密钥管理在网络安全中的重要性

js-中文字符显示-解决方案

从人工到机器智能盗版监测在-AI-时代如何破局

一、背景

二、盗版搜索结果分析

1. 用户搜索盗版影片示例

2.“判断难点”分析

三、自然语言识别如何识别盗版呢？

四、总结

Just My Socks（注册教程内含优惠码）

从人工到机器智能盗版监测在-AI-时代如何破局

一、背景

二、盗版搜索结果分析

1. 用户搜索盗版影片示例

2.“判断难点”分析

三、自然语言识别如何识别盗版呢？

四、总结

Just My Socks（注册教程 内含优惠码）

Just My Socks（注册教程内含优惠码）