15036188778

您所在位置: 首页> 学习课程> python培训班 | 新手如何学习python爬虫?

python培训班 | 新手如何学习python爬虫?

发布百知教育 来源:学习课程 2019-09-29

刚学完python基础,想学习爬虫的新手,这里有你想要的东西。


本文着重点在于教新手如何学习爬虫,并且会以外行人的思维进行形象地讲解。


环境安装

python3.7.1


pip install requests

pip install beautifulsoup4

pip install lxml


技术讲解

requests库


requests一般用于发起http请求,并且拿到请求的结果。http常用的请求有两种,GET和POST,爬虫主要用的是GET请求。


在不懂http,https和dns,TCP/IP等协议的情况下,我直接打个比方来解释一下什么是GET请求,以360浏览器为例,人在360浏览器输入www.baidu.com,然后敲击enter键,直到页面出现,整个过程,我们可以抽象为我们向百度服务器发起的一次GET请求。


更专业,更详细的解释,自己去百度学习吧。


如何使用requests库来模拟浏览器的行为来获取页面内容呢?


示例代码如下


python培训班


这样看起来,我们获取到的页面内容不是我们在浏览器看到的图形化界面,而是字符串,更像是一些代码。如果你学过html和css那就不用多说了。没学过也不要紧,现在可以简单学一下,也就花几分钟了解一下就够用了。


html是一种标记语言,可以被浏览器执行,然后呈现出可视化的图形界面。如果你把web.content.decode()这一串字符串保存在test.html里,然后双击打开,你会看到图形化界面的,只不过有些图片可能显示不了,这里就不细说了。


html其实很好理解,不要想得太复杂,就是一段有规律的格式化的文本。


其基本格式就是


<html>


<head>...</head>


<body>...<body>


<script>...</script>


<style>...</style>


</html>


html文本的标签一般都是成双成对,有始有终的,比如<body>和</body>是一队,千万不能拆散,拆散就乱套了。少数除外比如<br>是换行用的,可以不用配对。


这里我们主要讲body标签,网页的主要内容都是在这个标签里显示的,比如标题,段落,图片等


在test.html里我们写入一下代码并且保存。

<html>


<body>


<h1>我的网站</h1>


<p>这是我的网站</p>


</body>


</html>


html更多标签所代表的意义可以去这里学习 http://www.runoob.com/html/ht...


beautifulsoup4库


bs4(简称)库是用于解析格式化文本,提取数据用的库。


我们利用requests库的get函数拿到网页的内容是一段格式化的字符串,接下来就可以用bs4来解析它。


解析的示例代码如下


from bs4 import BeautifulSoup


html = '''<html>


<body>


<h1>我的网站</h1>


<p>这是我的网站</p>


<body>


</html>'''    #从网页拿到html的格式化的字符串,保存到html里


soup = BeautifulSoup(html, 'lxml')    #使用lxml解析器来解析文本,html和xml格式是类似的


print(soup.find_all('h1'))    #使用find_all函数来找所有的h1标签,返回的结果是数组


print(soup.find_all('p'))    #找所有的p标签,返回的结果是数组




更复杂一点的,比如




from bs4 import BeautifulSoup


html = '''<html>


<body>


<h1>我的网站</h1>


<p>这是我的网站</p>


<div class='test-item'>


测试1


</div>


<div class='test-item'>


测试2


</div>


<body>


</html>'''


soup = BeautifulSoup(html, 'lxml')


div_tags = soup.find_all(name='div', attrs={'class': 'test-item'})


for tag in div_tags:


    print(type(tag))


    print(tag)


    print(tag.string)


    print(tag.attrs, '\n')


注意,tag保存的不是字符串,而是bs4模块中的一个标签实体类,我们主要需要知道它的attrs属性和string属性,方便我们拿到一些我们想要的文本和信息,比如a标签的href属性就保存在attrs里。


总结


本文主要讲了如何使用requests获取网页文本内容,以及如何解析html文本,更多更好用的爬虫库.


python培训班:http://www.baizhiedu.com/python2019


上一篇:如果回老家,还能找到Python工作吗?

下一篇:应届生去公司找个Java程序员的职位需要什么技能?

相关推荐

www.baizhiedu.com

有位老师想和您聊一聊

关闭

立即申请