关于搜索引擎:内容社区行业搜索最佳实践

简介：社区内容通常包含UGC和PGC。因为关键词和内容多样性丰盛、用词标准水平参差不齐，搜索引擎须要对关键词和内容进行智能语义剖析，辨认出用户真正的查问用意，找到最全面最相干的后果满足用户需要。本文将具体介绍如何通过“凋谢搜寻（OpenSearch）内容增强版”在社区论坛场景的利用，晋升用户搜寻体验，带来更多的业务转化。

社区的外围是用户，用户进入社区的次要目标是为了生产内容。内容能够是狭义的图文、音频、视频，也能够是通过社区找到解决问题的办法。优质的内容能晋升用户的活跃度，为平台带来流量与时长，实现用户增长和留存，取得更多业务机会和收益。

“搜寻”作为社区间接获取内容的最有效途径，每个社区都在一直解决上面的搜寻成果问题：

如何精确了解用户的搜寻用意，返回最匹配的后果?
如何通过内容流传的差异化，个性化来晋升用户的搜寻体验，加强社区归属感和忠诚度？
如何在社区里不同畛域，不同垂类，不同频道间的内容召回中实现交互和连贯?
如何实现非商业化内容与商业化内容更好的交融与倒退?

本文将带着以上几个思考，为大家解析内容社区行业搜寻特点和挑战，以及介绍阿里云智能凋谢搜寻－内容社区行业增强版的解决方案和利用实际。

内容行业搜寻业务需要
» 更多的曝光机会——无后果率低;
» 更好的搜寻品质——搜寻相关性高，更高质量的排序;
» 更丰盛的业务特色——联合业务个性调整搜寻后果;
» 更全面的配套性能——智能纠错、热搜、底纹、下拉提醒等配套能力;
» 更低的领有老本——相较自建搜索引擎更低的开发、资源、运维老本;
» 更便捷的开发应用——上线周期短，升高搜索引擎开发、成果调优难度;

» 用户搜寻用意指向性强——主搜汇集多个频道内容，搜寻后果相关性要求更加精准;

以某论坛社区为例，产品线笼罩多个平台，蕴含网页、APP、小程序等模式，同时业务上辨别多个频道。随着业务的倒退，首页综合搜寻（后简称“主搜”）的流量越来越大，各种付费、引流业务接入，对搜寻流量的经营变得更加重要，对主搜的业务诉求越来越多，须要聚合多个频道的内容，同时搜寻后果相关性要求更加精准，在思考文本相关性的前提下，要退出更多的商业因素思考。

成熟的搜索引擎波及离线模块、在线模块、查问了解服务、算法平台等零碎，所需大量开发、算法调优以及继续的简单运维工作，因为人力无限，自建搜寻零碎很难满足业务需要。

常见搜寻业务场景

文章搜寻

博文、问答、心得分享等内容搜寻
精品内容、热帖发现
付费资源引流
标签分类过滤、筛选

(配图来自阿里云开发者社区)

话题搜寻

热门流动、话题互动
PGC、UGC
热搜、底纹、下拉提醒等搜寻疏导
个性化、时效性

(配图来自阿里云开发者社区)

凋谢搜寻内容社区增强版

计划架构

性能介绍

内容行业增强版基于阿里巴巴最新算法性能，贴合不同垂类内容搜寻场景的痛点和需要，提供了内容行业专属的智能语义理解能力、向量召回、排序算法，为内容行业的搜寻性能和成果准确性提供双重保障，并无效的解决了超大词库数据导致的搜寻提早高、资源耗费大、搜寻无后果率低等行业重难点问题。针对内容行业，凋谢搜寻还提供了向量模型，以实现向量召回及多路搜寻，进步查问准确率，并提供多模态搜寻解决方案。

通用版VS内容行业增强版

性能差别

查问剖析成果比照

行业增强版较通用版相比在查问剖析性能上做出了更深刻的优化，不仅在通用版的根底上更新了常见bad case，而且针对内容行业集各家之所长，丰盛已有词库。

分词：（以空格分词）

拼写纠错：

内容行业向量召回

针对内容行业的垂类行业数据分布提供高质量的向量召回模型，保障长尾query，蕴含错别字query，依赖同义词改写召回query的召回成果

向量召回

CTR预估模型-个性化搜寻成果

基于Seq行为建模，实现个性化搜寻

例如：用户间断搜寻：“面试”，“Java”两个词和用户只搜寻“Java”的后果是有差别的，实现个性化召回，针对性满足不同用户的搜寻需要，提醒用户搜寻体验。

深度排序模型DeepRanking

模型参数规模能够达到1000亿级别，保障更优搜寻成果，且模型训练、应用成本低，远低于自研人力+机器+研发反对所用老本。

深度召回模型汇合阿里云达摩院的NLP能力，晋升搜寻成果，升高无后果率

针对用户和数据特点，联合阿里巴巴长期技术积攒，深度定制模型构造，做到Make for you的特有深度模型构造。

增强版接入流程

轻松接入，疾速上手，一键式接入行业模板，可依据本身业务自定义抉择性能，并满足非技术人员业务干涉调优与数字化经营需要；点击体验交互式demo

表结构设计

详情可参考利用构造—>创立多表join。

数据接入

凋谢搜寻反对用户通过数据源将数据接入搜寻，也反对无数据源，通过API/SDK/控制台上传文件的形式导入数据详情如下：

RDS数据源配置
MaxCompute(原ODPS)数据源配置
POLARDB数据源配置
API/SDK数据导入

内容社区行业模板配置

性能抉择，垂类抉择“IT”行业为例，模板性能可自行勾选（默认全选）

其中模板性能包含：查问剖析（IT词权重、IT同义词包、文本向量化等）、排序策略（多路搜寻、文本相关性、向量相关性）、下拉提醒。

搜寻测试

如需应用“IT向量索引”搜寻，须要先配置查问剖析-文本向量化性能，并增加对应的IT向量索引：

在搜寻测试中进行测试：

成果定制服务

如果有深度召回、排序成果调优、个性化搜寻需要，凋谢搜寻团队专家反对成果定制服务，可填写征询问卷：https://page.aliyun.com/form/…

案例实际

某技术社区作为中文IT内容社区，致力于为中国软件开发者提供常识流传、在线学习、职业倒退等全生命周期服务，旗下包含多款产品。

自开始接触阿里云凋谢搜寻产品，在一年的工夫里陆续接入PC端、挪动端的多个平台，笼罩首页搜寻、博客、下载、问答等细分业务的频道搜寻。通过凋谢搜寻，为旗下产品的用户提供高质量的搜寻服务，并通过搜寻能力的优化带来更多的业务转化，晋升整体业务收入。

比照基于开源自建的服务CTR晋升超过80%
后续算法专家通过深度定制模型一直帮客户调优，每曝光用户带来点击次数晋升16.7%，Item-CTR晋升11.8%，成果还在继续晋升中；

原文链接
本文为阿里云原创内容，未经容许不得转载。

关于搜索引擎:内容社区行业搜索最佳实践

常见搜寻业务场景

文章搜寻

话题搜寻

凋谢搜寻内容社区增强版

计划架构

性能介绍

通用版VS内容行业增强版

内容行业向量召回

CTR预估模型-个性化搜寻成果

增强版接入流程

表结构设计

数据接入

内容社区行业模板配置

搜寻测试

在搜寻测试中进行测试：

成果定制服务

案例实际

评论

发表回复取消回复

更多文章

苹果iOS打包的ipa应用无法安装？一篇文章带你了解可能的原因及排查方法

图解Golang：从零开始实现简易版过期LRU缓存

深入解析：基于Delta的线性数据结构模型，打造高效富文本编辑器

轻松管理社交媒体：使用Automa插件实现一键拉黑功能

关于搜索引擎:内容社区行业搜索最佳实践

常见搜寻业务场景

文章搜寻

话题搜寻

凋谢搜寻内容社区增强版

计划架构

性能介绍

通用版VS内容行业增强版

内容行业向量召回

CTR预估模型-个性化搜寻成果

增强版接入流程

表结构设计

数据接入

内容社区行业模板配置

搜寻测试

在搜寻测试中进行测试：

成果定制服务

案例实际

评论

发表回复 取消回复

更多文章

苹果iOS打包的ipa应用无法安装？一篇文章带你了解可能的原因及排查方法

图解Golang：从零开始实现简易版过期LRU缓存

深入解析：基于Delta的线性数据结构模型，打造高效富文本编辑器

轻松管理社交媒体：使用Automa插件实现一键拉黑功能

发表回复取消回复