scrapy middleware

scrapy 常用的中间件 总结

名称 功能
retry 重试可能由于临时问题引起的超时问题
cookie 该中间件使得爬取需要cookie(例如使用session)的网站成为了可能。 其追踪了web server发送的cookie,并在之后的request中发送回去, 就如浏览器所做的那样。
DefaultHeadersMiddleware 头设置为默认模式
downloadtimeout 设置超时
httpauth 对来自特定spider的request授权
httpcache 給request&response设置缓存策略
httpproxy 給所有request设置http代理
redirect 重定向
metarefresh 根据meta-refresh html tag处理重定向
robotsTxt robots封禁处理