我们在学习python,要从最基本的爬虫学起,即使是在python培训班也是如此,在学习python钱,我们要了解爬虫的基本流程是什么,下面吗我们一起来看看吧!
用户获取网络数据的方式:
方式1:浏览器提交请求--->下载网页代码--->解析成页面
方式2:模拟浏览器发送请求(获取网页代码)->提取有用的数据->存放于数据库或文件中
爬虫要做的就是方式2。
1、发起请求
使用http库向目标站点发起请求,即发送一个Request
Request包含:请求头、请求体等
Request模块缺陷:不能执行JS 和CSS 代码
2、获取响应内容
如果服务器能正常响应,则会得到一个Response
Response包含:html,json,图片,视频等
3、解析内容
解析html数据:正则表达式(RE模块)、xpath(主要使用)、beautiful soup、css
解析json数据:json模块
解析二进制数据:以wb的方式写入文件
4、保存数据
数据库(MySQL,Mongdb、Redis)或 文件的形式。
以上是爬虫的基本流程,我们知道爬虫基本流程后,才能逐渐的由浅入深学习。
python培训班:http://www.baizhiedu.com/python2019