起源:https://blog.csdn.net/m0_5731...
前言
咱们如果用咱们的小服务器去搞百度,搜狗那种引擎必定是不行的,内属于全站搜寻,咱们这里做一个站内搜索。这个还是能够的,就相似于咱们对网站里的资源进行搜寻。
一.搜索引擎怎么搜寻
搜索引擎就像一个小蜜蜂每天不停的采摘蜂蜜,就是去爬虫各个网页,而后通过爬取之后建设索引,以供于咱们去搜寻。
这里咱们能够应用Python,或者下载文档压缩包。这里咱们下包把,快多了。原本想搞一个英雄联盟的,切实找不见,要是后续有老铁找到能够分享一下。
倡议大家别爬虫(要不然原告了,不过咱们学校的官网倒是能够轻易爬,咱们过后就是拿这个练手的) 为什么要用索引呢?
因为爬的数据太多了,不索引,难道我去遍历吗?工夫复杂度太大了。
这里咱们须要建设索引,索引别离为正排索引,和倒排索引。
拿LOL举个例子吧,正排就相当于,咱们提到无极剑圣的技能就能够联想到:
- Q技能 阿尔法突袭
- W技能 冥想
- E技能 无双
- R技能 高原血统
所以这是依据名字选技能
倒排索引就是LOL外面谁有剑:
- 蛮王
- 无极剑圣
- 剑姬
所以这是依据特点抉择英雄
二.模块划分
1.索引模块
1)扫描下载到的文档,剖析内容,构建出,正排索引和倒排索引。并且把索引内容保留到文件中。
2)加载制作i好的索引。并提供一些API实现查正排和查倒排这样的性能。
2.搜寻模块
1)调用索引模块,实现一个搜寻的残缺过程。
输出:用户的查问词 输入:残缺的搜寻后果
3.web模块
须要实现一个简略的web程序,可能通过网页的模式和用户进行交互。蕴含了前端和后端。
三. 怎么实现分词
分词的原理:
1.基于词库
尝试把所有的词都进行穷举,把这些后果放到词典文件中。
2.基于统计
收集到很多的语料库,进行人工标注,晓得了那些字在一起的概率比拟大~
java中可能实现分词的第三方工具也是有很多的
比方ansj(据说唱的兄弟可能听过ansj,哈哈)这个就是一个maven地方仓库的分词第三方库。
咱们间接下载最新版本而后放入pom.xml外面
test包里间接操作:咱们应用这个测试代码间接搞。试一下这个包咋用。
import org.ansj.domain.Term;import org.ansj.splitWord.analysis.ToAnalysis;import java.util.List;public class TastAnsj { public static void main(String[] args) { String str = "易巨匠是一个有超高机动性的刺客、兵士型英雄,善于利用疾速的打击迅速击溃对手,易巨匠个别打野和走单人路,作为无极剑道的最初传人,易能够迅速砍出大量挫伤,同时还能利用技能规避剧烈的攻打,避开敌人的集火。"; List<Term> terms = ToAnalysis.parse(str).getTerms(); for (Term term : terms) { System.out.println(term.getName()); } }}
四.文件读取
把刚刚下载好的文档的门路复制到String中并且用常量标记。
这一步是为了用遍历的办法把所有html文件搞进去,咱们这里用了一个递归,如果是绝对路径,就填加到文件链表,如果不是就递归,持续增加外面的值。
import java.io.File;import java.util.ArrayList;//读取刚刚文档public class Parser { private static final String INPUT_PATH="D:/test/docs/api"; public void run(){ //整个Parser类的入口 //1.依据门路,去枚举出所有的文件.(html); ArrayList<File> fileList=new ArrayList<>(); enumFile(INPUT_PATH,fileList); System.out.println(fileList); System.out.println(fileList.size()); //2.针对下面列举出的文件,关上文件,读取文件内容,并进行解析 //3.把在内存中结构好的索引数据结构,保定到指定的文件中。 } //第一个参数示意从哪里开始遍历 //第二个示意后果。 private void enumFile(String inputPath,ArrayList<File>fileList){ File rootPath=new File(inputPath); //listFiles 可能获取到一层目录下的文件 File[] files= rootPath.listFiles(); for(File f:files){ //依据以后f的类型判断是否递归。 //如果f是一个一般文件,就把f退出到fileList外面 //如果不是就调用递归 if(f.isDirectory()){ enumFile(f.getAbsolutePath(),fileList); }else { fileList.add(f); } } } public static void main(String[] args) { //通过main办法来实现整个制作索引的过程 Parser parser=new Parser(); parser.run(); }}
咱们尝试运行一下,这里的文件也太多了吧,而且无论是什么都打印进去了。所以咱们下一步就是把这些文件进行筛选,抉择有用的。
else { if(f.getAbsolutePath().endsWith(",html")) fileList.add(f); }
这个代码就是只是针对开端为html的文件。下图就是展现后果。
4.1 关上文件,解析内容。
这里分为三个别离是解析Title,解析Url,解析内容Content
4.1.1解析Title
f.getName()是间接读取文件名字的办法。
咱们用的name.substring(0,f.getName().length()-5);为什么要用总的文件名字长度减去5呢,因为.HTML刚好就是五。
private String parseTitle(File f) { String name= f.getName(); return name.substring(0,f.getName().length()-5); }
4.1.2解析Url操作
这里的url就是咱们平时去一个浏览器输出一个货色上面会有一个url,这个url就是咱们的绝对路径通过截取取得出咱们的绝对的目录,而后与咱们的http进行拼接,这样就能够间接失去一个页面。
private String parseUrl(File f) { String part1="https://docs.oracle.com/javase/8/docs/api/"; String part2=f.getAbsolutePath().substring(INPUT_PATH.length()); return part1+part2; }
4.1.3解析内容
以<>为开关进行对数据的读取,以int类型读取,为什么要用int而不是char呢因为int类型读完之后就变成-1能够判断一下是否读取结束。具体代码如下很容易了解。
private String parseContent(File f) throws IOException { //先依照一个一个字符来读取,以<>作为开关 try(FileReader fileReader=new FileReader(f)) { //加上一个是否拷贝的开关. boolean isCopy=true; //还须要筹备一个后果保留 StringBuilder content=new StringBuilder(); while (true){ //此处的read的返回值是int,不是char //如果读到文件开端,就会返回-1,这是用int的益处; int ret = 0; try { ret = fileReader.read(); } catch (IOException e) { e.printStackTrace(); } if(ret==-1) { break; } char c=(char) ret; if(isCopy){ if(c=='<'){ isCopy=false; continue; } //其余字符间接拷贝 if(c=='\n'||c=='\r'){ c=' '; } content.append(c); }else{ if(c=='>'){ isCopy=true; } } } return content.toString(); } catch (FileNotFoundException e) { e.printStackTrace(); } return ""; }
这一模块总的代码块如下:
import java.io.File;import java.io.FileNotFoundException;import java.io.FileReader;import java.io.IOException;import java.util.ArrayList;//读取刚刚文档public class Parser { private static final String INPUT_PATH="D:/test/docs/api"; public void run(){ //整个Parser类的入口 //1.依据门路,去枚举出所有的文件.(html); ArrayList<File> fileList=new ArrayList<>(); enumFile(INPUT_PATH,fileList); System.out.println(fileList); System.out.println(fileList.size()); //2.针对下面列举出的文件,关上文件,读取文件内容,并进行解析 for (File f:fileList){ System.out.println("开始解析"+f.getAbsolutePath()); parseHTML(f); } //3.把在内存中结构好的索引数据结构,保定到指定的文件中。 } private String parseTitle(File f) { String name= f.getName(); return name.substring(0,f.getName().length()-5); } private String parseUrl(File f) { String part1="https://docs.oracle.com/javase/8/docs/api/"; String part2=f.getAbsolutePath().substring(INPUT_PATH.length()); return part1+part2; } private String parseContent(File f) throws IOException { //先依照一个一个字符来读取,以<>作为开关 try(FileReader fileReader=new FileReader(f)) { //加上一个是否拷贝的开关. boolean isCopy=true; //还须要筹备一个后果保留 StringBuilder content=new StringBuilder(); while (true){ //此处的read的返回值是int,不是char //如果读到文件开端,就会返回-1,这是用int的益处; int ret = 0; try { ret = fileReader.read(); } catch (IOException e) { e.printStackTrace(); } if(ret==-1) { break; } char c=(char) ret; if(isCopy){ if(c=='<'){ isCopy=false; continue; } //其余字符间接拷贝 if(c=='\n'||c=='\r'){ c=' '; } content.append(c); }else{ if(c=='>'){ isCopy=true; } } } return content.toString(); } catch (FileNotFoundException e) { e.printStackTrace(); } return ""; } private void parseHTML (File f){ //解析出题目 String title=parseTitle(f); //解析出对应的url String url=parseUrl(f); //解析出对应的注释 try { String content=parseContent(f); } catch (IOException e) { e.printStackTrace(); } } //第一个参数示意从哪里开始遍历 //第二个示意后果。 private void enumFile(String inputPath,ArrayList<File>fileList){ File rootPath=new File(inputPath); //listFiles 可能获取到一层目录下的文件 File[] files= rootPath.listFiles(); for(File f:files){ //依据以后f的类型判断是否递归。 //如果f是一个一般文件,就把f退出到fileList外面 //如果不是就调用递归 if(f.isDirectory()){ enumFile(f.getAbsolutePath(),fileList); }else { if(f.getAbsolutePath().endsWith(".html")) fileList.add(f); } } } public static void main(String[] args) { //通过main办法来实现整个制作索引的过程 Parser parser=new Parser(); parser.run(); }}
近期热文举荐:
1.1,000+ 道 Java面试题及答案整顿(2022最新版)
2.劲爆!Java 协程要来了。。。
3.Spring Boot 2.x 教程,太全了!
4.别再写满屏的爆爆爆炸类了,试试装璜器模式,这才是优雅的形式!!
5.《Java开发手册(嵩山版)》最新公布,速速下载!
感觉不错,别忘了顺手点赞+转发哦!