博客
关于我
强烈建议你试试无所不能的chatGPT,快点击我
python 简单的爬虫
阅读量:5275 次
发布时间:2019-06-14

本文共 1170 字,大约阅读时间需要 3 分钟。

import urllib.requestimport reimport ssl  # 处理https请求import timeimport os  # 创建目录用def get_html(url):    page = urllib.request.urlopen(url)    html = page.read()  # 返回的是 
需要转码为字符串类型 html = html.decode('utf-8') # 返回的是
return htmlreg = 'src="(.+?\.jpg)" width' # 正则表达式reg_img = re.compile(reg) # 编译一下,运行更快ssl._create_default_https_context = ssl._create_unverified_context # 因为爬虫对象是https链接,导入一个ssl模块就可以解决问题imglist = reg_img.findall(get_html('http://tieba.baidu.com/p/1753935195')) # 进行匹配def mkdir(path): # 去除首位空格 path = path.strip() # 去除尾部 \ 符号 path = path.rstrip("\\") # 判断路径是否存在 # 存在 True # 不存在 False isExists = os.path.exists(path) # 判断结果 if not isExists: # 如果不存在则创建目录 # 创建目录操作函数 os.makedirs(path) print(path + ' 创建成功') return True else: # 如果目录存在则不创建,并提示目录已存在 print(path + ' 目录已存在') return False# 定义要创建的目录mkpath = "picture"# 调用函数picture = mkdir(mkpath)x = 0for img in imglist: urllib.request.urlretrieve(img, mkpath+'/%s.jpg' % time.time()) x += 1print("图片下载完成")

 

转载于:https://www.cnblogs.com/dengnapianhuahai/p/10043118.html

你可能感兴趣的文章
线程池的概念
查看>>
Oracle_Statspack性能诊断工具
查看>>
Java 序列化
查看>>
Java 时间处理实例
查看>>
Java 多线程编程
查看>>
Java 数组实例
查看>>
mysql启动过程
查看>>
2017前端面试题总结
查看>>
Http GetPost网络请求
查看>>
SWIFT国际资金清算系统
查看>>
Sping注解:注解和含义
查看>>
站立会议第四天
查看>>
如何快速掌握一门技术
查看>>
利用AMPScript获取Uber用户数据的访问权限
查看>>
vagrant 同时设置多个同步目录
查看>>
python接口自动化28-requests-html爬虫框架
查看>>
生成随机数的模板
查看>>
Mysql 数据库操作
查看>>
转:linux终端常用快捷键
查看>>
UVa 11059 最大乘积
查看>>