通过Python可以方便的开发网络爬虫,网络爬虫不仅仅可以爬取互联网信息,还可以用来进行web程序自动化测试。
有时候,我们通过爬虫爬取数据,然后再进行数据分析,因此开发爬虫其实也是数据分析人员一项非常有用的技能
在这部分,需要掌握如下内容:
- 原生爬虫模块与xpath路径 - 掌握爬虫原理,这样才能较好的掌握后续的框架学习以及根据需要修改爬虫
- 多线程与多进程爬虫 - 如果爬虫任务量很大,单线程爬虫效率会很低
- scrapy框架 - 简单的爬虫,我们可以写原生爬虫就可以解决问题,如果你有大量的爬虫,那么可以使用框架,这样通过简单的配置,就可以完成爬虫开发任务,减少重复工作
- selenium框架 - 这是一个测试框架,可以实现js脚本控制,除了用于测试以外还可以用来爬取,有一些网站可以通过selenium框架降低爬取难度
- 分布式爬虫 - 爬虫部署到多台服务器,从而让爬虫获得更好的性能
- 反爬措施 - 有的时候,我们不希望别人爬取自己的网站,那么就需要进行反爬,反反爬是非法的。