COOKIES_DEBUG = True#我们开启这个cookies_debug的功能,可以在输出界面看到cookies的传输情况 # Crawl responsibly by identifying yourself (and your website) on the user-agent #USER_AGENT = 'cookielogin (+http://www.yourdomain.com)'
我们用到了scrapy内置的函数,发起带cookies的请求,以访问登录后的页面。这个cookies一旦设置,爬虫发起的所有请求都将带上cookies。我们通过在settings.py开启COOKIES_DEBUG功能,追踪cookies的传送过程。 将cookies转化为字典形式的方法:cookies = {i.split("=")[0]:i.split("=")[1] for i in cookies.split("; ")}这个方法很常用,要熟记。 正则表达式re.findall("要么绽放要么死去",response.body.decode())是在查找响应页面中是否含有要么绽放要么死去这个字符串,最终会返回所有的要么绽放要么死去字符串。 response.body.decode()这个属性是表示响应页面的html字符串。