爬虫通识(二)总结 发表于 2020-01-20 更新于 2021-11-13 分类于 IT 阅读次数: 本文字数: 181 阅读时长 ≈ 1 分钟 爬虫通识阶段学习总结 知识树 主要内容主要就是学习数据提取的方式。我们使用爬虫获取到html页面或者是json字符串之后,要从中提取有用的数据,过滤掉无用信息。通看了教程,其实不难入门。多练习使用正则表达式和xpath将html这种非结构化数据类型转换为结构化数据类型(如:json和xml)。今天有点晚了,明天完成练习。值得安装的浏览器插件:jsonview、XPath Helper。 本文作者: 肖坤稼 本文链接: https://dana5haw.com/posts/ZH-CN/Spider_Summary_Two.html 版权声明: 本博客所有文章除特别声明外,均采用 BY-NC-SA 许可协议。转载请注明出处! 欢迎关注我的公众号(Welcome to follow me on Wechat) -------------本文结束感谢您的阅读-------------