pyspider
pyspider
数据库
sqlite
mongodb
mysql
redis
elasticsearch
fetcher引擎
phantomjs
puppeteer
fetcher调用客户端
tornado
消息队列
python内置队列
multiprocessing.queues queue
高级消息队列协议
amqp
Beanstalk
import beanstalkc
kombu
import kombu
redis消息队列
import redis
页面框架
flask
架构流程
调度器
抓取器
处理器
页面代码, 比如pyquery
webui
可以监视这个流程
创建任务
on_start函数
self.crawl
- @config修饰符
- age单位秒
- priority优先级,越高越好
- exetime,几秒后执行
- retries,重试次数
- itag, 页面标记
- auto_recrawl,重爬
- method
- params, get, url参数
- data, post,传输的数据
- user_agent
- headers
- 也可以使用Handler.crawl_config
- cookies
- connect_timeout
- timeout
- allow_redirects
- validate_cert
- proxy
- etag
- last_modified
- fetch_type
- js_script
- load_images
- save
- taskid
- force_update
- cancel