乐趣区

编写java多线程爬虫程序

所谓爬虫程序,就是模拟浏览器发送 http 请求给 web 网站。这里我们实现一个这样的爬虫程序:列出 segmentfault 网站中指定用户所有文章及其阅读人数的程序基本思路是这样的:1 我们进入某用户的文章列表页 2 获得文章列表 3 对文章逐个访问 4 获取文章页面的阅读数
比如以我的主页举例 1:进入文章列表页我的的列表页是:这个然后查看 html 代码,找到文章对应的 url 所在标签格式是这样的 href=”/a/1190000017542212″ 我们知道这里有用的信息是文章号,也就是 1190000017542212 这个,有了文章号,一会就可以利用这个拼接成文章的 url, 也就是 https://segmentfault.com/a/ 文 …。具体来讲就是 https://segmentfault.com/a/11…2:获得文章列表,就是获得所有文章号,利用正则表达式把获取的 html 文本中的文章号取出。3:对文章逐个访问,就是逐个访问用文章号拼成的 url。4:同样利用正则表达式把获取到的 html 文本中的阅读数取出。5:以上步骤都是由程序来完成!
最后是代码这个代码只实现了访问文章,也就是到 3,不过由于正则表达式的原理一样,有兴趣的读者可以自行修改实现!!!

退出移动版