网站首页 > 编程文章 正文
这次利用python设计一个爬取百度图片上的图片的源码,其中利用的是python的urllib,如果没有装的,可以使用Anconda在环境里进行安装或者
pip install urllib
这两种方式都可以安装,长话短说,上图吧,点击运行后,输入你要下载的图片类型:
比如,熊猫?美女?还是熊猫先吧
再来美女试试!
咋都是这么性感!
那么是不是百度图片页面搜索的那样呢?
看一下,对比一下,是的!
提示:有时会出现页面错误的信息,如下
那就说明前60张爬不下来,想想也就不斗智斗勇了,百度里的图片还是有很多的,能爬多少是多少得了!
这个可不是简单的随意爬取图片的吶,这个等你在深度学习后面做网络训练制作数据集时,可以从网上爬取一些你需要的训练图片资源的。不要用错地方了。。
附上源码:
(对于其中的url一栏,如果有兴趣,可以关注我后私信给我,然后我后台发给你使用,这也是和有兴趣的同学一个交流的机会,嘿嘿)
import urllib.request import urllib.parse import re import os # 添加header,其中Referer是必须的,否则会返回403错误,User-Agent是必须的,这样才可以伪装成浏览器进行访问 header = \ { 'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/56.0.2924.87 Safari/537.36', "referer": "https://image.baidu.com" } #这里url是一个非常主要的url,可以直接访问baidu网址的,这个不容易外传,所以就不写全了 url = "https://image.baidu.com/search/acjson?tn=resultjson_com&ipn=rj&ct=201326592&is=&fp" keyword = input("请输入搜索关键字:") # 转码 keyword = urllib.parse.quote(keyword, 'utf-8') n = 0 j = 0 while (n < 1000): error = 0 n += 30 # url url1 = url.format(word=keyword, pageNum=str(n)) # 获取请求 rep = urllib.request.Request(url1, headers=header) # 打开网页 rep = urllib.request.urlopen(rep) # 获取网页内容 try: html = rep.read().decode('utf-8') # print(html) except: print("出错了!") error = 1 print("出错页数:" + str(n)) if error == 1: continue # 正则匹配 p = re.compile("thumbURL.*?\.jpg") # 获取正则匹配到的结果,返回list s = p.findall(html) if os.path.isdir("D://pic") != True: os.makedirs("D://pic") with open("testpic.txt", "a") as f: # 获取图片 for i in s: print(i) i = i.replace('thumbURL":"', '') print(i) f.write(i) f.write("\n") # 保存图片 urllib.request.urlretrieve(i, "D://pic/pic{num}.jpg".format(num=j)) j += 1 f.close() print("总共爬取图片数为:" + str(j))
猜你喜欢
- 2024-10-23 将python源代码封装成window可执行程序教程
- 2024-10-23 CentOS 7 源码编译安装Python3.9(centos7源码包安装)
- 2024-10-23 国产化设备鲲鹏CentOS7上源码安装Python3.7
- 2024-10-23 Python干货:26个python源代码,节省6小时
- 2024-10-23 如何用python将你对女朋友的悄悄话,藏在图片里(源码)
- 2024-10-23 Python 爬虫如何爬取网页源码?(如何利用python爬取网页内容)
- 2024-10-23 python的web服务器:flask+boostrap 实现网站框架,源码分享
- 2024-10-23 python 一步下载指定网页所有图片
- 2024-10-23 基于python的开源能源管理系统(python开源模块)
- 2024-10-23 python抓取网站源代码(php源码抓取工具)
你 发表评论:
欢迎- 06-24一个老爸画了超级有爱的365幅画 | 父亲节献礼
- 06-24产品小白看魏则西事件——用产品思维审视百度推广
- 06-24某教程学习笔记(一):13、脚本木马原理
- 06-24十大常见web漏洞——命令执行漏洞
- 06-24初涉内网,提权那些事(内网渗透提权)
- 06-24黑客命令第16集:47种最常见的**网站方法2/2
- 06-24铭说 | 一句话木马的多种变形方式
- 06-24Java隐藏的10倍效率技巧!90%程序员不知道的魔法方法(附代码)
- 最近发表
- 标签列表
-
- spire.doc (70)
- instanceclient (62)
- solidworks (78)
- system.data.oracleclient (61)
- 按键小精灵源码提取 (66)
- pyqt5designer教程 (65)
- 联想刷bios工具 (66)
- c#源码 (64)
- graphics.h头文件 (62)
- mysqldump下载 (66)
- libmp3lame (60)
- maven3.3.9 (63)
- 二调符号库 (57)
- git.exe下载 (68)
- diskgenius_winpe (72)
- pythoncrc16 (57)
- solidworks宏文件下载 (59)
- qt帮助文档中文版 (73)
- satacontroller (66)
- hgcad (64)
- bootimg.exe (69)
- android-gif-drawable (62)
- axure9元件库免费下载 (57)
- libmysqlclient.so.18 (58)
- springbootdemo (64)
本文暂时没有评论,来添加一个吧(●'◡'●)