Scrapy定时爬取任务(CentOS)

最近写了个自动采集电影和图片的网站,用的是Scrapy,下面介绍一下在Centos下面如何设置定时爬取任务。

安装Crontab

1、检查是否安装crontab

执行crontab命令,如果报command not found,则表明没有安装。

2、安装crontab

yum install -y vixie-cron

3、检查是否安装成功

crontab -l

上述命令会列出所有配了定时执行的任务。如下所示:

4、看是否设置了开机启动

chkconfig --list crond

默认情况下安装完成之后,会设置成开机自动启动,如下所示:

5、启动crontab

service crond start

设置定时任务

首先创建shell脚本如下:

#! /bin/sh

export PATH=$PATH:/usr/local/bin
# 跳转至Scrapy项目目录
cd /root/project/zhyuge-py
# 后台运行抓取,并将日志输出到tp169.log文件
nohup scrapy crawl tp169 >> logs/tp169.log 2>&1 &

保存文件后,然后执行

crontab -e

在vi编辑器中创建定时器如下:

# 每隔2小时抓取一次
0 */2 * * *  sh /root/project/cron/tp169.sh 

然后使用下面命令可以查看已经创建的定时器任务。

crontab -l