python爬虫实例之selenium斗鱼爬虫

爬什么

把斗鱼直播的所有房间信息爬取到本地并保存。

怎么做

为了练习selenium模块驱动无头浏览器进行爬虫，导入selenium的webdriver模块进行爬虫。
思路：

找到目标数据的请求url
提取数据
保存数据

本来是要练习发送翻页请求，但是现在斗鱼网站的翻页按钮不在html响应体中，可能是由js生成，目前的知识水平还无法完成翻页。所以，就只是抓取了第一页的数据。
提取数据可以使用selenium模块的find_element_by_xpath，但是我实验了多次，这个定位方式有问题。于是换了以前学过的方式，用lxml的etree模块将html响应转换为html对象，再对这个html对象做xpath。
而selenium模块获取html响应的属性是driver.page_source。

代码

from selenium import webdriver
from lxml import etree
import json
# import time

class DouyuSpider:
    def __init__(self):
        self.strat_url = "https://www.douyu.com/directory/all"
        self.driver = webdriver.Chrome(r"E:\chromedriver_win32\chromedriver.exe")

    def get_content_list(self):
        page_source = self.driver.page_source #获取响应html
        # print(page_source)
        html = etree.HTML(page_source) #将html转换为对象
        #1. 分组（一个房间信息在一个li标签里面）
        li_list = html.xpath("//div[@class='layout-Module-container layout-Cover ListContent']//li")
        content_list = []
        #2. 提取所需数据
        for li in li_list:
            item = {}
            item["img"] = li.xpath(".//div[@class='LazyLoad is-visible']/img/@src")
            # print(item["img"])
            item["title"] = li.xpath(".//div[@class='DyListCover-content']/div[1]/h3/text()")
            # print(item["title"])
            item["category"] = li.xpath(".//div[@class='DyListCover-content']/div[1]/span/text()") #这个div[1]指的是第一个div标签
            # print(item["category"])
            item["author"] = li.xpath(".//div[@class='DyListCover-content']/div[2]/h2/text()")
            # print(item["author"])
            item["hot"] = li.xpath(".//div[@class='DyListCover-content']/div[2]/span/text()")
            # print(item["hot"])
            print(item)
            content_list.append(item)
        #3. 获取下一页的元素
        # next_url = self.driver.find_elements_by_xpath("//span[@class='dy-Pagination-item-custom']")
        # next_url = next_url[0] if len(next_url)>0 else None
        # print(next_url)
        return content_list

    def save_content_list(self,content_list): #保存数据到本地
        for content in content_list:
            with open("douyu.txt","a",encoding="utf8") as f:
                f.write(json.dumps(content,ensure_ascii=False,indent=2)) #json.dumps将数据内容以美化的格式写入到文本文件
                f.write("\n") #写入换行符

    def run(self): #实现主要逻辑

        #1. strat_url
        #2. 发送请求，获取响应
        self.driver.get(self.strat_url)
        #3. 提取数据，获取下一页的元素
        content_list = self.get_content_list()
        #4. 保存数据
        self.save_content_list(content_list)
        self.driver.quit() #退出浏览器

if __name__ == '__main__': #主函数
    douyu = DouyuSpider()
    douyu.run()

其他

用pycharm安装lxml模块始终不成功，不晓得是什么原因。
xpath提取数据，可以用div[1]表示第一个div标签，div[last()]表示最后一个div标签。

xpath虽然简单，但是一定要特别注意，element里面看到的内容，和html响应的内容是否有区别，xpath以html响应的内容为准。在写xpath之前，就要明确这个问题，否则更改错误的xpath浪费时间。