scrapy 常用的中间件 总结
名称 | 功能 |
---|---|
retry | 重试可能由于临时问题引起的超时问题 |
cookie | 该中间件使得爬取需要cookie(例如使用session)的网站成为了可能。 其追踪了web server发送的cookie,并在之后的request中发送回去, 就如浏览器所做的那样。 |
DefaultHeadersMiddleware | 头设置为默认模式 |
downloadtimeout | 设置超时 |
httpauth | 对来自特定spider的request授权 |
httpcache | 給request&response设置缓存策略 |
httpproxy | 給所有request设置http代理 |
redirect | 重定向 |
metarefresh | 根据meta-refresh html tag处理重定向 |
robotsTxt | robots封禁处理 |