关于后端:百度搜索中鱼龙混杂的加盟信息如何靠AI-解决

2次阅读

共计 5070 个字符,预计需要花费 13 分钟才能阅读完成。

导读:从粗放式流量笼罩到精细化用户时长晋升的转变,以及构建个性化、场景化文案创意的生成,迫切需要一套自动化、系统化的智能内容生成解决方案,来缓解人工创作下的耗时长、老本低等问题。本文将从行业背景登程,全面介绍下招商加盟行业下内容场景的特点,最初重点介绍加盟星在招商加盟行业下摸索的 AI 创作解决方案。

全文 5103 字,预计浏览工夫 16 分钟

在百度搜索引擎中,每天有几百万的流量是招商加盟相干的,但招商加盟行业的信息泥沙俱下,仿冒、虚伪的信息岂但给用户造成了困扰,甚至有可能让人遭受金钱上的损失。目前加盟服务平台泛滥,泛滥『三快』平台通过截流品牌方的流量,诱导用户点击,对用户和加盟方都是重大的挫伤。加盟星是百度招商加盟行业的解决方案,通过对加盟品牌的资质认证达到去伪存真的目标,保障加盟信息的实在牢靠。因而,加盟星对用户加盟需要的笼罩满足水平,决定了加盟星发挥作用的下限,因而,扩充加盟星自有认证内容可能更大程度的驱赶『劣币』市场流量。

一、背景

招商加盟行业下,用户对加盟需要的认知能够归类为三种:

  • 第一类是问答流程类,是用户对特定品牌加盟的加盟检索,属于品牌需要,心愿失去对于特定品牌的费用、流程以及加盟条件的相干信息,这类的搜寻需要和品牌方提供的信息相干,存在肯定的结构性和通用性;
  • 第二类是优劣比照类需要,是品类需要,是对某个行业上加盟信息的查找,满足这部分用户的需要须要加盟星具备肯定规模的物料和对物料的认知;
  • 第三类是无特定行业或品牌下的泛用意需要,存在『加盟』『赚钱』的需要,但本人也没有明确的方向。

上述三种流量散布并不平衡,满足上述每种检索需要的难度也不一样。同时,随着加盟星的倒退,每种检索需要的优先级也是在一直变动的,因而须要配套的内容笼罩满足机制。

在建设内容笼罩机制的过程中,咱们首先从流量的头尾散布来剖析,著名品牌的检索流量占总体的 60% 以上,对应的品牌数量只有几百,而残余长尾的流量涵盖的品牌数量却是数万的量级。在对头部品牌的内容笼罩中,量级是比拟无限的,能够通过定向写作、定向抓取等形式,保障高质量的状况下进行有序的晋升覆盖率。对于非头部的流量,则很难通过上述形式达到无效的晋升。非头部流量具备不确定性,以月度为周期统计,相邻两个月份的非头部流量重叠率只有 60%,这就导致了定向人工写作或抓取的形式,往往带来的成果不太现实。因而,心愿通过 AI 创作的形式,主动、批量的生成内容,以便于可能疾速、高效的晋升内容覆盖率。因而在加盟星业务中,进行了 AI 创作的摸索和建设,来满足加盟星内容笼罩的晋升。

二、整体设计

整体流程上,咱们能够看做是三个模块的串行:流量剖析是一个离线模块,提供对近期搜寻流量的拆解剖析,领导后续内容生成的方向;内容生成模块通过对不同的生成需要,采纳不同的办法产出对应的内容,最终数据模块将生成的数据进行品质校验、建库以及增加到检索逻辑中,进行最终的展示。

零碎实现上,分为离线局部和在线局部,离线局部包含流量剖析、生成层和数据校验层;在线局部是基于业务逻辑对内容的展示,不作为本文的重点介绍内容。

  • 流量剖析 是离线模块的终点,针对搜寻流量、日志记录信息等数据,借助 query 剖析等服务,实现对以后流量的无效笼罩剖析,进而领导生成模块的内容生成;
  • 生成层 分为 AI 生成和定向生成,其中定向生成包含人工写作以及定向引流,次要实用于小批量、高精准的头部流量的笼罩,AI 创作蕴含四种不同的办法,是对不同内容生成需要的满足;
  • 数据校验层 是对内容品质的把控,通过非法内容过滤、品质校验、重合度计算以及人工干预等伎俩,保障落库数据的品质,防止在检索后果上呈现违规不适合的内容。

数据层是对生成的内容数据、用户的检索数据以及剖析开掘的后果数据进行存储,在数据层也须要实现对数据完整性的校验、建库和索引的生成;检索逻辑实现对自有内容和生成内容的检索,在该层可能实现对自有内容和生成内容的展示权重、程序、PV 等的调整管制;最上层是对内容的展示,包含自建阿拉丁卡片、SEO 流量以及广告流量等。上面就次要流程的摸索,别离开展形容。

2.1 流量剖析模块

检索日志:是通过行业流量判断模型,失去的一段时间(周或者月粒度)内用户的检索流量。其中蕴含咱们曾经笼罩的流量和未笼罩的流量,即属于行业流量但咱们未能在任何一个渠道返回后果的流量,这部分流量是咱们要晋升笼罩的指标。

过滤:用户的输出可能蕴含了一些不适合的内容,例如暴力、黄色或者革命的信息,同时,在业务倒退的不同阶段关注的流量重点也是不同的,因而须要咱们对检索日志中蕴含负面情绪的流量以及不合乎业务以后倒退重心的流量剔除掉。

query 剖析:咱们拿到用户输出的 query 后,须要了解用户的搜寻需要是如何的,比方感兴趣的行业或品牌、投资程度、加盟用意的强度等,通过加盟星自建的 query 剖析服务实现对 query 的用意、类型、层级、实体、价格、地区等信息的解析,产出对所有 query 的解析后果,助力后续的模块。

内部 / 竞品:指的是和业务同类型、同方向的内部业务网站,关注内部竞品信息,可能及时的理解本身业务的有余和行业的倒退,咱们在这里是关注内部竞品网站的内容笼罩状况。

笼罩剖析:通过 query 剖析模块对近期用户的检索需要的拆解,联合站内已有的物料以及展示状况,进行以后状态下的流量笼罩剖析,同时将以后流量和内部竞品联合,剖析内部竞品的笼罩状况,如果内部竞品笼罩状况优于目前站内,应该触发抓取模块,获取内部的内容原料并写库积淀;否则间接将笼罩剖析后果输入到上游。

抓取模块:当须要减少定向内容的时候,触发该模块来获取指定的内部 / 竞品内容,当做生成模块的输出信息。

2.2 内容生成模块

咱们通过对历史数据的剖析,理解到以后站内对用户搜寻需要的满足状况后,能够开始着手内容的生成。在该步骤中,整体流程能够看做是承受传入的生成需要,而后依据不必的生成内容需要调用不必的生成接口,产出对应的内容而后通过校验模块校验后,决定给是否从新生成还是能够落库。

内容生成上,咱们将其分为了人工和 AI 两种类型,其中人工定向生成内容次要是满足头部流量以及行程一种用户习惯和行业效应,AI 生成内容可能笼罩大多数的搜寻流量,也是为了补救人工定向生成中周期长、扩量慢等问题。

其中人工定向生成内容包含 大咖说、加盟日志、创业者说、探店视频、轮播视频 等内容,从文章到视频,造成对我的项目的全方位内容笼罩,也可能晋升用户对加盟星内容笼罩维度的认知,产生踊跃的效应。但人工定向也存在比较严重的问题:速度慢、周期长、无奈批量化等。这些问题的存在促成了咱们去踊跃的摸索 AI 创作内容的可行性。

不同的用户具备不同的加盟需要,在加盟用意、强度或者方向(行业)上具备多样性,因而,咱们定义了四种不同的生成办法:模板式、摘要式、改写式以及自在生成。不同的生成办法在 准确度、覆盖面、指标流量、实现形式 上存在差别,以满足用户不同场景下的搜寻需要。

2.2.1 模板式生成

通过对用户搜寻流量的剖析,对于加盟流程、加盟费用、加盟城市等具备固定答案的搜寻需要,咱们能够制订模板,以 完形填空 的形式将特定的我的项目(品牌)数据填充进去,造成针对用户搜寻需要的内容笼罩。

在模板式生成的建设过程中,思考到视频是当下比拟受欢迎的内容模式,构建了基于模板的视频生成接口,可能依据传入的文本、图文,利用已有的模板主动生成对应的视频。其中音频的生成反对内部传入或者文本转音频,如果只有文本的状况下,会进行文本转图片的操作,当传入了图片的状况下,会依据音频的节奏调整图片的展现时长,展现 demo 如下:

咱们能够看出,这种形式利用了已有的信息生成特定格局的内容,足够迅速和精确,针对用户加盟流程、加盟劣势、加盟费用等特定搜寻需要,具备肯定的满足性。然而,局限性也比拟大,重大依赖我的项目数据的齐备性。因而,肯定水平上引入内部的无效数据是很有必要的,基于引入的内部数据,为了防止不必要的问题,咱们建设以下的生成接口:摘要式生成和改写式生成。

2.2.2 改写式和摘要式生成

主动摘要是一种 NLG 工作,能够分为生成式摘要和抽取式摘要,前者通过文档内容,通过模型生成对文章的自然语言形容,而后者是从原文中提取现成的重要句子作为摘要。两者各有利弊,建设难度和应用阶段也不同。站内建设初期短少大量文本和对应的摘要数据,能够通过抽取式摘要的办法,例如 MMR、TextRank 或者多种办法的加权组合,达到摘要生成的目标,随着数据的积攒,有了足够的训练数据时,能够进行摘要生成式模型的训练。但抽取式的后果也是能够当做辅助信息输出模型,领导模型输入的内容尽量通顺。

文本改写,也叫做文本复述,通过对搜寻数据、同义词或者模型等,找到不同表述的近义表白,对文本进行同样语义下的再次表述。在此处,咱们把改写看做是一种 翻译行为,通过原始语句和改写语句对当做训练数据,进行模型的训练,但目前生成品质还有进一步晋升。

改写式或者摘要式都能够看做是一种翻译工作,通过原始 source 语句,获取 target 语句输入的模式,是一种规范的 Seq2Seq 范式,因而在建设过程中,能够思考基于 Transformer 的预训练模型。改写式或者摘要式须要依赖一个原始文本内容的输出,是针对已有内容的生成,当内部数据也无奈满足的时候,就须要自由式生成办法来解决了。

2.2.3 自由式生成

文本的自在生成是针对长尾流量的无效解决方案:没有内部无效数据能够参考,又存在用户的搜寻需要须要满足。目前支流的的文本自在生成(预训练)模型包含 ERNIE 2.0/3.0、GPT-2/ 3 以及基于中文 CPM 等。

在预训练模型的根底上,咱们通过对大量招商加盟行业资讯文本语料的微调,取得专属招商加盟行业的生成模型,对用户感兴趣的搜寻需要进行自在的生成,从而在肯定水平满足用户的搜寻用意。

但目前来看,自在生成的文本在超过肯定长度后,通顺性、文章价值、困惑度等指标都会急剧下降,在短文本上体现比拟合乎预期。对于长文本的生成,后续能够参照 RNN 的形式,每一次都生成较短的文本,对生成后果进行校验后,迭代的进行生成,这是后续可能摸索的一种形式,目前来看,只依赖模型的后果而短少先验常识的状况下,生成的内容可用性比拟低,这也是未来重点摸索的方向。

2.3 数据校验模块

通过 AI 创作生成的文章,在内容上存在肯定的不可控性,如果间接推送建库可能带来一些问题,例如黄反暴等负面情绪的舆论、反复内容的问题、内容品质问题等等,在数据校验模块中,通过人工或主动的形式,主动评测上,咱们能够采纳的线下点击率预估的形式,比照生成文案与已有文案在预估点击率上的差异性,从而失去生成文案在业务上带来的价值,另外基于 N-gram 匹配的 BLUE、基于编辑间隔以及基于覆盖率的指标,例如困惑度、重合度、simhash 值、情感极性等,也能够用于对生成内容的评估。人工评测上,更多是辅助调整生成后果与业务指标的匹配水平。

在理论的业务逻辑中,AI 创作生成的内容,等同站内自在的内容,但须要增加标记位进行辨别,以便于呈现 case 的时候定位起源,积攒的生成内容的 case 可能反向推动生成模块的迭代。

2.4 加盟星利用场景

AI 创作内容,不仅仅局限于晋升站内内容的覆盖率,满足用户的搜寻需要,在举荐和广告场景下,也能带来微小的业务价值,满足个性化、定制化的内容生成。以加盟星广告为例,如果可能依据用户、展示场景、主动生成创意文案,满足个性化的生成,更加合乎用户的认知,在肯定水平下来晋升业务指标。同样的,在举荐上,通过主动生成举荐理由、排行榜理由等,可能会更好的满足带动业务指标的晋升。加盟星在这方面心愿打造一套智能内容生成的高质量、系统化的解决方案,从而为加盟星业务场景的倒退助力。


三、总结反思

AI 创作可能无效的晋升业务对用户搜寻的笼罩水平,但随着从结构化的模板生成到半结构化直到齐全非结构化的自在文本生成,创作的难度是逐步减少的,对于生成内容的后果也是越来越不可控的,因而,对生成内容的把控尤为重要,避免出现不合时宜的内容产生从而带来不必要的损失。心愿后续可能逐步完善优化整个招商加盟行业的内容创作框架,引入更多的先验常识生成更加齐备的内容。

举荐浏览:

|百度文库新一代文档阅读器!核心技术点全解析!

|详解预训练模型在信息检索第一阶段的利用

|疾速剪辑 - 助力度咔智能剪辑提效实际

———- END ———-

百度 Geek 说

百度官网技术公众号上线啦!

技术干货 · 行业资讯 · 线上沙龙 · 行业大会

招聘信息 · 内推信息 · 技术书籍 · 百度周边

欢送各位同学关注

正文完
 0