0%

爬虫通识(二)总结

知识树

通用爬虫通识(二).png

主要内容

主要就是学习数据提取的方式。我们使用爬虫获取到html页面或者是json字符串之后,要从中提取有用的数据,过滤掉无用信息。
通看了教程,其实不难入门。多练习使用正则表达式和xpath将html这种非结构化数据类型转换为结构化数据类型(如:json和xml)。
今天有点晚了,明天完成练习。
值得安装的浏览器插件:jsonviewXPath Helper

-------------本文结束感谢您的阅读-------------