pyspider

pyspider

数据库

sqlite

mongodb

mysql

redis

elasticsearch

fetcher引擎

phantomjs

puppeteer

fetcher调用客户端

tornado

消息队列

python内置队列

multiprocessing.queues queue

高级消息队列协议

amqp

Beanstalk

import beanstalkc

kombu

import kombu

redis消息队列

import redis

页面框架

flask

架构流程

调度器

抓取器

处理器

页面代码, 比如pyquery

webui

可以监视这个流程

创建任务

on_start函数
self.crawl
  • @config修饰符
    • age单位秒
    • priority优先级,越高越好
  • exetime,几秒后执行
  • retries,重试次数
  • itag, 页面标记
  • auto_recrawl,重爬
  • method
  • params, get, url参数
  • data, post,传输的数据
  • user_agent
  • headers
    • 也可以使用Handler.crawl_config
    • cookies
  • connect_timeout
  • timeout
  • allow_redirects
  • validate_cert
  • proxy
  • etag
  • last_modified
  • fetch_type
  • js_script
  • load_images
  • save
  • taskid
  • force_update
  • cancel