springbootquartzjsoupkafka

最近在学习springboot，光看官方文档比较枯燥，于是想用一个项目把各种框架和技术串联起来，思来想去觉得爬虫是一个不错的idea。

大概思路是这样：固定频率去爬取新浪财经的头条新闻，爬到的标题和链接以json方式推到kafka的topic中，再通过ELK消费，在kibana中查看。

首先通过Spring Initializr下载一个demo工程，选择我们需要的依赖包，jsoup的包需要额外添加。

引入到idea中，修改pom文件，加入jsoup依赖，由于习惯了使用jetty作为web容器，所以把tomcat踢掉，引入jetty的依赖，为了方便处理json，引入fastjson依赖。

quartz的使用可以参考官网文档，这里我们通过mysql来持久化定时任务相关信息，涉及到mysql，顺便把mybatis和druid依赖也一起引入。

quartz相关表的sql在官网的demo里可以找到，这里就略过，假设表已建好。springboot提供了很好的quartz支持，自动配置了一个Scheduler，直接Autowired就可以使用，我们新建一个Service，在系统启动的时候启动爬取新闻的定时任务，代码如下：

假设每30分钟爬取一次，我们还需要一个Job实现类，来完成具体的爬取任务，也可以通过不同的job来分别爬取，这里就不展开了。Job实现类如下：

在爬网页之前先看一下每个页面的结构，以新浪财经为例，地址：https://finance.sina.com.cn/，查看页面结构可以发现，我们需要的头条新闻都在“m-hdline”这个class的a标签下，jsoup的使用比较简单，根据需要查找对应的文档就可以了，直接上代码：

接下来需要将获取到的数据发到kafka的topic中，我的win10是家庭版，天生不带docker，我又懒得折腾toolbox，于是搞了个自带的ubuntu虚拟机，直接下载kafka安装，然后创建一个topic:financenews。这时候可以将kafka的信息配置在我们的工程中，如下：

springboot也贴心的为我们准备了KafkaTemplate，Autowired即可。这里我们还没有搭建好elk，可以使用直接监听定时任务发送到的topic中的消息是否正常。

最后在job中添加发送消息到kafka的处理：

代码到这里基本差不多了，下面我们启动应用看看效果：

成功。

评论