关于搜索引擎:记录搭建一个私人搜索引擎

43次阅读

共计 502 个字符,预计需要花费 2 分钟才能阅读完成。

自己很喜爱搜索引擎技术,最近想搭建一个属于本人的私人搜索引擎,主动实现所有的进去流程,记录一下。
把某个行业、某个畛域,对应的网址放在一个 txt 文件内,接下来动动鼠标,点几下,从爬取到最初即时搜寻,主动全副搞定,成果跟在百度搜寻没什么两样。

以下是具体的操作流程逻辑:

第一步:创立一个索引工作,一键生成

这个操作会主动创立对应的表,用来寄存爬取的网页内容,不须要人工创立,省去一些过于细化的配置。

第二步,开始主动内容爬取,主动入库

这个过程会先在后盾进行多线程链接爬取,而后再进行多线程内容爬取,只须要指定链接文件,爬取层数,是否遵循 robots,保留表,就能够一键开始爬取,期间会有进度条显示。

第三步,一键更新指定内容索引

这个过程会通过索引模块,对某个表进行分词,索引,生成倒排索引文件,此过程也是全自动的。

第四步,指定搜寻库,开始搜寻

生成完索引后,能够指定哪个索引作为以后搜寻的搜寻库,而后就能够自在搜寻了

对于数据承载量,一般版本单机可承载几十万数据,高级版本单机可承载千万级数据,次要在于算法逻辑和数据结构的区别。语言为 php+mysql,主打一个傻瓜式操作,配置不便。

如果你也喜爱搜寻技术,能够相互交换。

正文完
 0