400-616-5551

您所在位置: 首页> 学习课程> python爬虫的基本流程是什么?

python爬虫的基本流程是什么?

发布百知教育 来源:学习课程 2019-09-18

我们在学习python,要从最基本的爬虫学起,即使是在python培训班也是如此,在学习python钱,我们要了解爬虫的基本流程是什么,下面吗我们一起来看看吧!


用户获取网络数据的方式:


方式1:浏览器提交请求--->下载网页代码--->解析成页面


方式2:模拟浏览器发送请求(获取网页代码)->提取有用的数据->存放于数据库或文件中


爬虫要做的就是方式2。


1、发起请求


使用http库向目标站点发起请求,即发送一个Request

Request包含:请求头、请求体等  

Request模块缺陷:不能执行JS 和CSS 代码


2、获取响应内容


如果服务器能正常响应,则会得到一个Response

Response包含:html,json,图片,视频等 


3、解析内容


解析html数据:正则表达式(RE模块)、xpath(主要使用)、beautiful soup、css

解析json数据:json模块

解析二进制数据:以wb的方式写入文件 


4、保存数据


数据库(MySQL,Mongdb、Redis)或 文件的形式。


以上是爬虫的基本流程,我们知道爬虫基本流程后,才能逐渐的由浅入深学习。


python培训班:http://www.baizhiedu.com/python2019


上一篇:西安python培训就业薪资高吗?

下一篇:应届生去公司找个Java程序员的职位需要什么技能?

相关推荐

www.baizhiedu.com

有位老师想和您聊一聊

关闭

立即申请