我们在选择python编程的时候,常常会有一些疑惑,不知道怎么学习,或者希望可以自己研究明白,在学习过程中难免会进入一些坑,那么这些坑有哪些呢?
使用 requests+xpath 和抓包大法确实可以解决很多网站信息的爬取,但是对于信息量比较大或者需要分模块爬取的话,就会显得寸步难行。
后来应用到了强大的 Scrapy 框架,它不仅能便捷地构建 Request,还有强大的 Selector 能够方便地解析 Response,然而最让人惊喜的还是它超高的性能,可以将爬虫工程化、模块化。
学会 Scrapy,自己去尝试搭建了简单的爬虫框架,在做大规模数据爬取的时候能够结构化、工程化地思考大规模的爬取问题,这使我可以从爬虫工程的维度去思考问题。
再后来开始逐渐接触到分布式爬虫,这个东西听着挺唬人,但其实就是利用多线程的原理让多个爬虫同时工作,能够实现更高的效率。
总结一下我学习python爬虫过程所走过的一些坑
1、缺少合理的学习路径,上来 Python、HTML 各种学,极其容易放弃;
2、网上的资料非常零散,而且对小白不友好,很多看起来云里雾里,如果有条件,建议报名python培训班学习;
3、没有专业的人知道,会走很多的弯路,自己都不知道要往哪里学。
所以很多爬虫工程师,都会有跟我一样的体会:爬虫这玩意儿不需要多精湛的代码技术,也不需要多深的数据库知识,只要有合理的学习路径以及实操项目,都能学好。
当然麻烦的是,在具体的问题中,如何找到具体需要的那部分学习资源、如何筛选和甄别,遇到困难时如何有效解决,是很多初学者面临的大问题。
python培训:http://www.baizhiedu.com/python2019