Python 采集数据三步曲之[Requests + re.py模块进行数据采集]
当我们熟悉了re和Requests两个模块,就可以开始愉快的数据采集之旅了,我们先为自己找一些需要采集的数据,比如股票价格数据、新闻或是美女图片等,只要你喜欢。
数据采集第一步,加载数据源。
这里我假设自己一个工作繁忙兼职炒股股市老手,工作的同时经常需要查看股市行情,但是又不能总盯着炒股软件,这个时候为自己做一个简单的股票数据采集器是个不错的选择。
import re, requests # 加载所需模块
r = requests.get('http://hq.sinajs.cn/list=s_sh000001') #互联网上市公司股票价格
r.encoding = 'gbk'# 设置编码 解决乱码问题
print(r.text) #返回html代码(数据)
通过上边的代码运行之后我们会得到一组数据:
var hq_str_s_sh000001="上证指数,3367.1194,6.3091,0.19,2824975,31372209";
数据含义分别为:指数名称,当前点数,当前价格,涨跌率,成交量(手),成交额(万元);
这样我们只要提示自己需要的上证指数,3367.1194,6.3091,0.19,2824975,31372209这段数据后,就可以把它转换成自己需要的对象,然后处理打印。
数据采集第二步,解析数据,提取我们自己需要的。
s = r.text # 获取数据
p = r'"(.+)"' #设置正则表达式
r = re.search(p, s).group(1) #匹配并获取结果字符串
print(r)
ls = r.split(',')
print(ls)
数据采集第三步,处理最后的打印
print('''{}:{}
当前价格:{}
涨跌率:{}
成交量(手):{}
成交额(万元):{}'''.format(ls[0],ls[1],ls[2],ls[3],ls[4],ls[5])
)
#最后输出:
#上证指数:3367.1194
#当前价格:6.3091
#涨跌率:0.19
#成交量(手):2824975
#成交额(万元):31372209
得到以上结果之后,我们就可以通过很多方法来通知自己查看大盘点数(发邮件,直接通过一个网址查看或是短信),了解股市行情了。具体实现这里暂时不做讲解,因为超出当前教程的范围。
本文源码下载:
标签: Python基础
相关文章
- 解决错误 ERROR [WinError 10049] 在其上下文中,该请求的地址无效。
- 如何在Python程序中使用配置文件.ini(ConfigParser)
- Python os.mknod 运行报错无法创建文件
- Python os.path.dirname(__file__) 在终端命令行下报错
- 聊聊Python中的递归与快速排序那点事
- 妙用IPython学习Python--IPython快速上手
- Python生成器yield应用实例——监控日志
- 如何快速的复习学习过的Python
- python中导入不同目录中的自定义模块/class/函数/方法
- 浅谈Python中的协程及利用协程代替多线程及多进程并发编程
- 聊聊Python中晦涩的生成器(yield)与生成器表达式
- Python中创建TCP服务器与客户端进行通信(下)Tk、thread与socket组合。
- Python中创建TCP服务器与客户端进行通信(上)
- Python程序在Windows10终端运行中文乱码解决方法
- 你与黑客之间差了多少行Python代码?
- 聊聊Python闭包(Closure)的那点事。
- Python并发编程(下)功能强大设置简单的分布式多进程生产者与消费者模式
- Python并发编程(上)进程模块multiprocessing模块和Process类
- Python多线程编程(下)多线程锁 threading.Lock
- Python多线程编程(上)多线程创建的几种方法
- python 类的静态方法和类方法
- Python面向对象编程(OOP)初探
- Python random 随机数模块操作总结
- Python3 datetime模块的时间操作
- python3函数学习笔记简单总结
- PythonINI配置文件读写的简单方法
- Python open()函数文件打开、读、写操作总结
- Python os.path模块中一些常用方法的整理总结
- Python 采集数据三步曲之[Requests开源协议的HTTP 库]
- Python 采集数据三步曲之[正则表达式 re.py]
- python3 Markdown模块解析Markdown代码
- 创建python 虚拟环境 venv