猿变实验室之猿变开发手册-爬虫教程-爬虫教程

通过Python可以方便的开发网络爬虫，网络爬虫不仅仅可以爬取互联网信息，还可以用来进行web程序自动化测试。

有时候，我们通过爬虫爬取数据，然后再进行数据分析，因此开发爬虫其实也是数据分析人员一项非常有用的技能

在这部分，需要掌握如下内容：

原生爬虫模块与xpath路径 - 掌握爬虫原理，这样才能较好的掌握后续的框架学习以及根据需要修改爬虫
多线程与多进程爬虫 - 如果爬虫任务量很大，单线程爬虫效率会很低
scrapy框架 - 简单的爬虫，我们可以写原生爬虫就可以解决问题，如果你有大量的爬虫，那么可以使用框架，这样通过简单的配置，就可以完成爬虫开发任务，减少重复工作
selenium框架 - 这是一个测试框架，可以实现js脚本控制，除了用于测试以外还可以用来爬取，有一些网站可以通过selenium框架降低爬取难度
分布式爬虫 - 爬虫部署到多台服务器，从而让爬虫获得更好的性能
反爬措施 - 有的时候，我们不希望别人爬取自己的网站，那么就需要进行反爬，反反爬是非法的。