举报投诉联系我们 手机版 热门标签 VUE中文网
您的位置:VUE中文网 > python爬虫获取 Python3爬虫抓取

python爬虫获取 Python3爬虫抓取

2023-03-19 22:17 Python3教程

python爬虫获取 Python3爬虫抓取

python爬虫获取

Python爬虫是一种利用Python语言编写的程序,用于从Web页面中抓取数据。它可以自动地抓取特定的信息,并将其存储在本地文件或数据库中。

Python爬虫的主要作用是从Web页面中抓取数据,这些数据可以是文本、图像、文件或其他格式的数据。它还可以用来测试Web应用程序的性能,并检测Web站点上的安全问题。

Python爬虫通常使用一个名为“requests”的库来处理HTTP请求和响应。它还使用一个名为“BeautifulSoup”的库来处理HTML文档,并提取所需要的信息。此外,还有一些其他常用的Python库,如Selenium、Scrapy和urllib2,也可以帮助开发人员创建强大而有效的Python爬虫。

import requests 
from bs4 import BeautifulSoup 
 
url = 'http://example.com/' 
response = requests.get(url) 
html_doc = response.text 
soup = BeautifulSoup(html_doc, 'html.parser') 
links = soup.find_all('a')  # 查找所有a标签 
for link in links:  # 遍历a标签 
    print(link.get('href')) # 获取a标签href属性

Python3爬虫图片抓取

在上一章中,我们已经学会了如何使用Python3爬虫抓取文字,那么在本章教程中,将通过实例来教大家如何使用Python3爬虫批量抓取图片。

 注:该网站目前已经更换了图片的请求方式,以下爬虫方法只能作为思路参考,已经无法运行成功,望周知!

(1)实战背景

1

上图的网站的名字叫做Unsplash,免费高清壁纸分享网是一个坚持每天分享高清的摄影图片的站点,每天更新一张高质量的图片素材,全是生活中的景象作品,清新的生活气息图片可以作为桌面壁纸也可以应用于各种需要的环境。

看到这么优美的图片,是不是很想下载啊。每张图片我都很喜欢,批量下载吧,不多爬,就下载50张好了。

2)实战进阶

我们已经知道了每个html标签都有各自的功能。标签存放一下超链接,图片存放在哪个标签里呢?html规定,图片统统给我放到标签中!既然这样,我们截取就Unsplash网站中的一个标签,分析一下:

<img alt="Snow-capped mountain slopes under blue sky" src="https://images.unsplash.com/photo-1428509774491-cfac96e12253?dpr=1&

可以看到,标签有很多属性,有alt、src、class、style属性,其中src属性存放的就是我们需要的图片保存地址,我们根据这个地址就可以进行图片的下载。

那么,让我们先捋一捋这个过程:

  • 使用requeusts获取整个网页的HTML信息;

  • 使用Beautiful Soup解析HTML信息,找到所有标签,提取src属性,获取图片存放地址;

  • 根据图片存放地址,下载图片。

我们信心满满地按照这个思路爬取Unsplash试一试,编写代码如下:

# -*- coding:UTF-8 -*-
import requests
if __name__ == "__main__":
     target = "https://unsplash.com/"
     req = requests.get(url=target)
     print(req.text)

按照我们的设想,我们应该能找到很多标签。但是我们发现,除了一些

阅读全文
以上是VUE中文网为你收集整理的python爬虫获取 Python3爬虫抓取全部内容。
声明:本站所有文章资源内容,如无特殊说明或标注,均为采集网络资源。如若本站内容侵犯了原著者的合法权益,可联系本站删除。
相关文章
© 2024 VUE中文网 vue88.com 版权所有 联系我们