【Python】爬虫

突然想研究一下Python的爬虫功能,简单的做一下笔记:

安装依赖库

pip install urllib3

库的相关说明:https://urllib3.readthedocs.io/en/latest/

示例代码:


import urllib3
import json

#建立连接
http = urllib3.PoolManager()
#使用GET方式连接
r = http.request('GET', 'https://mod.3dmgame.com/mod/API/147160')
#打印整个页面
print(r.data)
#由于页面的json,所有可以直接用json解析
print(json.loads(r.data.decode('utf-8')))

实例-获取Script Hook RDR2的更新状态


import urllib3
import re
#创建连接
http = urllib3.PoolManager()
#使用GET方法连接网站
r = http.request('GET','http://www.dev-c.com/rdr2/scripthookrdr2')
#定义正则表达式
pattern = re.compile('<tr>.*?<th>Released</th>.*?<td>(.*?)</td>.*?'+
			'</tr>.*?<tr>.*?<th>Version</th>.*?<td>(.*?)</td>.*?</tr>.*?'+
			'<tr>.*?<th>Supported patches</th>.*?<td>(.*?)</td>.*?</tr>',re.S)
#匹配字段
items = re.findall(pattern,r.data.decode('utf-8'))
#打印匹配到的字段
print(items)
#写入数据
for item in items:
Released = item[0]
Version = item[1]
Supported = item[2]
#打印输出
print("更新时间:"+Released+",\n版本:"+Version+",\n支持版本:"+Supported)

输出结果:


[('15 Jan 2020', 'v1.0.1232.17', '1.0.1207.58/1232.17 and above')]
更新时间:15 Jan 2020,
版本:v1.0.1232.17,
支持版本:1.0.1207.58/1232.17 and above
点赞
  1. indir说道:
    Google Chrome Windows 10

    Thanks so much for the blog post. Much thanks again. Really Cool. Clarinda Jodi Terena

发表评论

电子邮件地址不会被公开。必填项已用 * 标注