关于搜索引擎:内容社区行业搜索最佳实践

75次阅读

共计 2524 个字符,预计需要花费 7 分钟才能阅读完成。

简介:社区内容通常包含 UGC 和 PGC。因为关键词和内容多样性丰盛、用词标准水平参差不齐,搜索引擎须要对关键词和内容进行智能语义剖析,辨认出用户真正的查问用意,找到最全面最相干的后果满足用户需要。本文将具体介绍如何通过“凋谢搜寻(OpenSearch)内容增强版”在社区论坛场景的利用,晋升用户搜寻体验,带来更多的业务转化。

社区的外围是用户,用户进入社区的次要目标是为了生产内容。内容能够是狭义的图文、音频、视频,也能够是通过社区找到解决问题的办法。优质的内容能晋升用户的活跃度,为平台带来流量与时长,实现用户增长和留存,取得更多业务机会和收益。

“ 搜寻 ” 作为社区间接获取内容的最有效途径,每个社区都在一直解决上面的搜寻成果问题:

  • 如何精确了解用户的搜寻用意,返回最匹配的后果?
  • 如何通过内容流传的差异化,个性化来晋升用户的搜寻体验,加强社区归属感和忠诚度?
  • 如何在社区里不同畛域,不同垂类,不同频道间的内容召回中实现交互和连贯?
  • 如何实现非商业化内容与商业化内容更好的交融与倒退?

本文将带着以上几个思考,为大家解析内容社区行业搜寻特点和挑战,以及介绍阿里云智能凋谢搜寻-内容社区行业增强版的解决方案和利用实际。

内容行业搜寻业务需要
» 更多的曝光机会——无后果率低;
» 更好的搜寻品质——搜寻相关性高,更高质量的排序;
» 更丰盛的业务特色——联合业务个性调整搜寻后果;
» 更全面的配套性能——智能纠错、热搜、底纹、下拉提醒等配套能力;
» 更低的领有老本——相较自建搜索引擎更低的开发、资源、运维老本;
» 更便捷的开发应用——上线周期短,升高搜索引擎开发、成果调优难度;

» 用户搜寻用意指向性强——主搜汇集多个频道内容,搜寻后果相关性要求更加精准;

以某论坛社区为例,产品线笼罩多个平台,蕴含网页、APP、小程序等模式,同时业务上辨别多个频道。随着业务的倒退,首页综合搜寻(后简称“主搜”)的流量越来越大,各种付费、引流业务接入,对搜寻流量的经营变得更加重要,对主搜的业务诉求越来越多,须要聚合多个频道的内容,同时搜寻后果相关性要求更加精准,在思考文本相关性的前提下,要退出更多的商业因素思考。

成熟的搜索引擎波及离线模块、在线模块、查问了解服务、算法平台等零碎,所需大量开发、算法调优以及继续的简单运维工作,因为人力无限,自建搜寻零碎很难满足业务需要。

常见搜寻业务场景

文章搜寻

  • 博文、问答、心得分享等内容搜寻
  • 精品内容、热帖发现
  • 付费资源引流
  • 标签分类过滤、筛选


(配图来自阿里云开发者社区)

话题搜寻

  • 热门流动、话题互动
  • PGC、UGC
  • 热搜、底纹、下拉提醒等搜寻疏导
  • 个性化、时效性


(配图来自阿里云开发者社区)

凋谢搜寻内容社区增强版

计划架构

性能介绍

内容行业增强版基于阿里巴巴最新算法性能,贴合不同垂类内容搜寻场景的痛点和需要,提供了内容行业专属的智能语义理解能力、向量召回、排序算法,为内容行业的搜寻性能和成果准确性提供双重保障,并无效的解决了超大词库数据导致的搜寻提早高、资源耗费大、搜寻无后果率低等行业重难点问题。针对内容行业,凋谢搜寻还提供了向量模型,以实现向量召回及多路搜寻,进步查问准确率,并提供多模态搜寻解决方案。

通用版 VS 内容行业增强版

  • 性能差别

  • 查问剖析成果比照

行业增强版较通用版相比在查问剖析性能上做出了更深刻的优化,不仅在通用版的根底上更新了常见 bad case,而且针对内容行业集各家之所长,丰盛已有词库。

分词:(以空格分词)

拼写纠错:

内容行业向量召回

针对内容行业的垂类行业数据分布提供高质量的向量召回模型,保障长尾 query,蕴含错别字 query,依赖同义词改写召回 query 的召回成果

  • 向量召回

CTR 预估模型 - 个性化搜寻成果

基于 Seq 行为建模,实现个性化搜寻

例如:用户间断搜寻:“面试”,“Java”两个词和用户只搜寻“Java”的后果是有差别的,实现个性化召回,针对性满足不同用户的搜寻需要,提醒用户搜寻体验。

深度排序模型 DeepRanking

模型参数规模能够达到 1000 亿级别,保障更优搜寻成果,且模型训练、应用成本低,远低于自研人力 + 机器 + 研发反对所用老本。

深度召回模型汇合阿里云达摩院的 NLP 能力,晋升搜寻成果,升高无后果率

针对用户和数据特点,联合阿里巴巴长期技术积攒,深度定制模型构造,做到 Make for you 的特有深度模型构造。

增强版接入流程

轻松接入,疾速上手,一键式接入行业模板,可依据本身业务自定义抉择性能,并满足非技术人员业务干涉调优与数字化经营需要;点击体验交互式 demo

表结构设计

详情可参考利用构造 —> 创立多表 join。

数据接入

凋谢搜寻反对用户通过数据源将数据接入搜寻,也反对无数据源,通过 API/SDK/ 控制台上传文件的形式导入数据详情如下:

  • RDS 数据源配置
  • MaxCompute(原 ODPS)数据源配置
  • POLARDB 数据源配置
  • API/SDK 数据导入

内容社区行业模板配置

性能抉择,垂类抉择“IT”行业为例,模板性能可自行勾选(默认全选)

其中模板性能包含:查问剖析(IT 词权重、IT 同义词包、文本向量化等)、排序策略(多路搜寻、文本相关性、向量相关性)、下拉提醒。

搜寻测试

如需应用“IT 向量索引”搜寻,须要先配置查问剖析 - 文本向量化性能,并增加对应的 IT 向量索引:

在搜寻测试中进行测试:

成果定制服务

如果有深度召回、排序成果调优、个性化搜寻需要,凋谢搜寻团队专家反对成果定制服务,可填写征询问卷:https://page.aliyun.com/form/…

案例实际

某技术社区作为中文 IT 内容社区,致力于为中国软件开发者提供常识流传、在线学习、职业倒退等全生命周期服务,旗下包含多款产品。

自开始接触阿里云凋谢搜寻产品,在一年的工夫里陆续接入 PC 端、挪动端的多个平台,笼罩首页搜寻、博客、下载、问答等细分业务的频道搜寻。通过凋谢搜寻,为旗下产品的用户提供高质量的搜寻服务,并通过搜寻能力的优化带来更多的业务转化,晋升整体业务收入。

  • 比照基于开源自建的服务 CTR 晋升超过 80%
  • 后续算法专家通过深度定制模型一直帮客户调优,每曝光用户带来点击次数晋升 16.7%,Item-CTR 晋升 11.8%,成果还在继续晋升中;

原文链接
本文为阿里云原创内容,未经容许不得转载。

正文完
 0