scrapy 常用的中间件 总结
| 名称 | 功能 |
|---|---|
| retry | 重试可能由于临时问题引起的超时问题 |
| cookie | 该中间件使得爬取需要cookie(例如使用session)的网站成为了可能。 其追踪了web server发送的cookie,并在之后的request中发送回去, 就如浏览器所做的那样。 |
| DefaultHeadersMiddleware | 头设置为默认模式 |
| downloadtimeout | 设置超时 |
| httpauth | 对来自特定spider的request授权 |
| httpcache | 給request&response设置缓存策略 |
| httpproxy | 給所有request设置http代理 |
| redirect | 重定向 |
| metarefresh | 根据meta-refresh html tag处理重定向 |
| robotsTxt | robots封禁处理 |