0%

爬什么

把百度贴吧【李毅吧】的内容爬取到本地并保存,需要提取用户名称、发表时间、评论数这几个字段,并且把用户头像和发表的图片保存到本地。

阅读全文 »

爬什么

把百思不得姐网站的所有段子爬取下来,并保存到本地。本来是要爬内涵段子的,可惜访问不到这个网站了。

阅读全文 »

正则表达式是什么

正则表达式,就是用事先定义好的一些特定字符、及这些特定字符的组合,组成一个”规则字符串”,这个”规则字符串”用来表达对字符串的一种过滤逻辑。

阅读全文 »

xpath是什么

XPath (XML Path Language) 是一门在 HTML\XML 文档中查找信息的语言,可用来在 HTML\XML 文档中对元素和属性进行遍历。

阅读全文 »