关于java:用-Java-写了一个搜索引擎系统这个太强了

起源：https://blog.csdn.net/m0_5731…

前言

咱们如果用咱们的小服务器去搞百度，搜狗那种引擎必定是不行的，内属于全站搜寻，咱们这里做一个站内搜索。这个还是能够的，就相似于咱们对网站里的资源进行搜寻。

一.搜索引擎怎么搜寻

搜索引擎就像一个小蜜蜂每天不停的采摘蜂蜜，就是去爬虫各个网页，而后通过爬取之后建设索引，以供于咱们去搜寻。

这里咱们能够应用Python，或者下载文档压缩包。这里咱们下包把，快多了。原本想搞一个英雄联盟的，切实找不见，要是后续有老铁找到能够分享一下。

倡议大家别爬虫（要不然原告了，不过咱们学校的官网倒是能够轻易爬，咱们过后就是拿这个练手的）为什么要用索引呢？

因为爬的数据太多了，不索引，难道我去遍历吗？工夫复杂度太大了。

这里咱们须要建设索引，索引别离为正排索引，和倒排索引。

拿LOL举个例子吧，正排就相当于，咱们提到无极剑圣的技能就能够联想到：

Q技能阿尔法突袭
W技能冥想
E技能无双
R技能高原血统

所以这是依据名字选技能

倒排索引就是LOL外面谁有剑：

蛮王
无极剑圣
剑姬

所以这是依据特点抉择英雄

二.模块划分

1.索引模块

1）扫描下载到的文档，剖析内容，构建出，正排索引和倒排索引。并且把索引内容保留到文件中。

2）加载制作i好的索引。并提供一些API实现查正排和查倒排这样的性能。

2.搜寻模块

1）调用索引模块，实现一个搜寻的残缺过程。

输出：用户的查问词输入：残缺的搜寻后果

3.web模块

须要实现一个简略的web程序，可能通过网页的模式和用户进行交互。蕴含了前端和后端。

三. 怎么实现分词

分词的原理：

1.基于词库

尝试把所有的词都进行穷举，把这些后果放到词典文件中。

2.基于统计

收集到很多的语料库，进行人工标注，晓得了那些字在一起的概率比拟大~

java中可能实现分词的第三方工具也是有很多的

比方ansj(据说唱的兄弟可能听过ansj，哈哈)这个就是一个maven地方仓库的分词第三方库。

咱们间接下载最新版本而后放入pom.xml外面

test包里间接操作：咱们应用这个测试代码间接搞。试一下这个包咋用。

import org.ansj.domain.Term;
import org.ansj.splitWord.analysis.ToAnalysis;
import java.util.List;
public class TastAnsj {
    public static void main(String[] args) {
        String str = "易巨匠是一个有超高机动性的刺客、兵士型英雄，善于利用疾速的打击迅速击溃对手，易巨匠个别打野和走单人路，作为无极剑道的最初传人，易能够迅速砍出大量挫伤，同时还能利用技能规避剧烈的攻打，避开敌人的集火。";
        List<Term> terms = ToAnalysis.parse(str).getTerms();
        for (Term term : terms) {
            System.out.println(term.getName());
        }
    }
}

四.文件读取

把刚刚下载好的文档的门路复制到String中并且用常量标记。

这一步是为了用遍历的办法把所有html文件搞进去，咱们这里用了一个递归，如果是绝对路径，就填加到文件链表，如果不是就递归，持续增加外面的值。

import java.io.File;
import java.util.ArrayList;

//读取刚刚文档
public class Parser {
     private static final  String INPUT_PATH="D:/test/docs/api";
      public  void run(){
          //整个Parser类的入口
          //1.依据门路，去枚举出所有的文件.（html）；
          ArrayList<File> fileList=new ArrayList<>();
          enumFile(INPUT_PATH,fileList);
          System.out.println(fileList);
          System.out.println(fileList.size());
          //2.针对下面列举出的文件，关上文件，读取文件内容，并进行解析
          //3.把在内存中结构好的索引数据结构，保定到指定的文件中。
      }
      //第一个参数示意从哪里开始遍历 //第二个示意后果。
      private void enumFile(String inputPath,ArrayList<File>fileList){
         File rootPath=new File(inputPath);
         //listFiles 可能获取到一层目录下的文件
        File[] files= rootPath.listFiles();
         for(File f:files){
             //依据以后f的类型判断是否递归。
             //如果f是一个一般文件，就把f退出到fileList外面
             //如果不是就调用递归
             if(f.isDirectory()){
                 enumFile(f.getAbsolutePath(),fileList);
             }else {
                 fileList.add(f);
             }
         }
      }
    public static void main(String[] args) {
        //通过main办法来实现整个制作索引的过程
        Parser parser=new Parser();
        parser.run();
    }
}

咱们尝试运行一下，这里的文件也太多了吧，而且无论是什么都打印进去了。所以咱们下一步就是把这些文件进行筛选，抉择有用的。

else {
                 if(f.getAbsolutePath().endsWith(",html"))
                 fileList.add(f);
             }

这个代码就是只是针对开端为html的文件。下图就是展现后果。

4.1 关上文件，解析内容。

这里分为三个别离是解析Title，解析Url，解析内容Content

4.1.1解析Title

f.getName()是间接读取文件名字的办法。

咱们用的name.substring(0,f.getName().length()-5);为什么要用总的文件名字长度减去5呢，因为.HTML刚好就是五。

private  String parseTitle(File f) {
          String name= f.getName();
         return name.substring(0,f.getName().length()-5);

    }

4.1.2解析Url操作

这里的url就是咱们平时去一个浏览器输出一个货色上面会有一个url，这个url就是咱们的绝对路径通过截取取得出咱们的绝对的目录，而后与咱们的http进行拼接，这样就能够间接失去一个页面。

private  String parseUrl(File f) {
      String part1="https://docs.oracle.com/javase/8/docs/api/";
      String part2=f.getAbsolutePath().substring(INPUT_PATH.length());
          return part1+part2;
    }

4.1.3解析内容

以<>为开关进行对数据的读取，以int类型读取，为什么要用int而不是char呢因为int类型读完之后就变成-1能够判断一下是否读取结束。具体代码如下很容易了解。

private  String parseContent(File f) throws IOException {
          //先依照一个一个字符来读取，以<>作为开关
        try(FileReader fileReader=new FileReader(f)) {
            //加上一个是否拷贝的开关.
            boolean isCopy=true;
            //还须要筹备一个后果保留
            StringBuilder content=new StringBuilder();
            while (true){
                //此处的read的返回值是int，不是char
                //如果读到文件开端，就会返回-1，这是用int的益处；
                int  ret = 0;
                try {
                    ret = fileReader.read();
                } catch (IOException e) {
                    e.printStackTrace();
                }
                if(ret==-1) {
                        break;
                    }
                    char c=(char) ret;
                    if(isCopy){
                        if(c=='<'){
                            isCopy=false;
                            continue;
                        }
                        //其余字符间接拷贝
                        if(c=='\n'||c=='\r'){
                            c=' ';
                        }
                        content.append(c);
                    }else{
                        if(c=='>'){
                            isCopy=true;
                        }
                    }
            }

            return  content.toString();
        } catch (FileNotFoundException e) {
            e.printStackTrace();
        }
        return "";
    }

这一模块总的代码块如下：

import java.io.File;
import java.io.FileNotFoundException;
import java.io.FileReader;
import java.io.IOException;
import java.util.ArrayList;

//读取刚刚文档
public class Parser {
     private static final  String INPUT_PATH="D:/test/docs/api";
      public  void run(){
          //整个Parser类的入口
          //1.依据门路，去枚举出所有的文件.（html）；
          ArrayList<File> fileList=new ArrayList<>();
          enumFile(INPUT_PATH,fileList);
          System.out.println(fileList);
          System.out.println(fileList.size());
          //2.针对下面列举出的文件，关上文件，读取文件内容，并进行解析
          for (File f:fileList){
              System.out.println("开始解析"+f.getAbsolutePath());
              parseHTML(f);
          }
          //3.把在内存中结构好的索引数据结构，保定到指定的文件中。
      }

    private  String parseTitle(File f) {
          String name= f.getName();
         return name.substring(0,f.getName().length()-5);

    }
    private  String parseUrl(File f) {
      String part1="https://docs.oracle.com/javase/8/docs/api/";
         String part2=f.getAbsolutePath().substring(INPUT_PATH.length());
          return part1+part2;
    }
    private  String parseContent(File f) throws IOException {
          //先依照一个一个字符来读取，以<>作为开关
        try(FileReader fileReader=new FileReader(f)) {
            //加上一个是否拷贝的开关.
            boolean isCopy=true;
            //还须要筹备一个后果保留
            StringBuilder content=new StringBuilder();
            while (true){
                //此处的read的返回值是int，不是char
                //如果读到文件开端，就会返回-1，这是用int的益处；
                int  ret = 0;
                try {
                    ret = fileReader.read();
                } catch (IOException e) {
                    e.printStackTrace();
                }
                if(ret==-1) {
                        break;
                    }
                    char c=(char) ret;
                    if(isCopy){
                        if(c=='<'){
                            isCopy=false;
                            continue;
                        }
                        //其余字符间接拷贝
                        if(c=='\n'||c=='\r'){
                            c=' ';
                        }
                        content.append(c);
                    }else{
                        if(c=='>'){
                            isCopy=true;
                        }
                    }
            }

            return  content.toString();
        } catch (FileNotFoundException e) {
            e.printStackTrace();
        }
        return "";
    }
    private void parseHTML (File f){
        //解析出题目
          String title=parseTitle(f);
        //解析出对应的url
          String url=parseUrl(f);
        //解析出对应的注释
        try {
            String content=parseContent(f);
        } catch (IOException e) {
            e.printStackTrace();
        }
    }
      //第一个参数示意从哪里开始遍历 //第二个示意后果。
      private void enumFile(String inputPath,ArrayList<File>fileList){
         File rootPath=new File(inputPath);
         //listFiles 可能获取到一层目录下的文件
        File[] files= rootPath.listFiles();
         for(File f:files){
             //依据以后f的类型判断是否递归。
             //如果f是一个一般文件，就把f退出到fileList外面
             //如果不是就调用递归
             if(f.isDirectory()){
                 enumFile(f.getAbsolutePath(),fileList);
             }else {
                 if(f.getAbsolutePath().endsWith(".html"))
                 fileList.add(f);
             }
         }
      }
    public static void main(String[] args) {
        //通过main办法来实现整个制作索引的过程
        Parser parser=new Parser();
        parser.run();
    }
}

近期热文举荐：

1.1,000+ 道 Java面试题及答案整顿(2022最新版)

2.劲爆！Java 协程要来了。。。

3.Spring Boot 2.x 教程，太全了！

4.别再写满屏的爆爆爆炸类了，试试装璜器模式，这才是优雅的形式！！

5.《Java开发手册（嵩山版）》最新公布，速速下载！

感觉不错，别忘了顺手点赞+转发哦！

关于java:用-Java-写了一个搜索引擎系统这个太强了

前言

一.搜索引擎怎么搜寻

二.模块划分

1.索引模块

2.搜寻模块

3.web模块

三. 怎么实现分词

分词的原理：

四.文件读取

4.1 关上文件，解析内容。

4.1.1解析Title

4.1.2解析Url操作

4.1.3解析内容

评论

发表回复取消回复

更多文章

DDN HPC 存储硬件架构设计深度分析

探秘IO500：从Lustre并行文件系统出发，开启HPC存储性能新征程

苹果iOS打包的ipa应用无法安装？一篇文章带你了解可能的原因及排查方法

图解Golang：从零开始实现简易版过期LRU缓存

关于java:用-Java-写了一个搜索引擎系统这个太强了

前言

一.搜索引擎怎么搜寻

二.模块划分

1.索引模块

2.搜寻模块

3.web模块

三. 怎么实现分词

分词的原理：

四.文件读取

4.1 关上文件，解析内容。

4.1.1解析Title

4.1.2解析Url操作

4.1.3解析内容

评论

发表回复 取消回复

更多文章

DDN HPC 存储硬件架构设计深度分析

探秘IO500：从Lustre并行文件系统出发，开启HPC存储性能新征程

苹果iOS打包的ipa应用无法安装？一篇文章带你了解可能的原因及排查方法

图解Golang：从零开始实现简易版过期LRU缓存

发表回复取消回复