需求分析
最近想要获取一些雪球的数据,所以写了个小爬虫来抓取。写爬虫时也看了些框架,比如scrapy。觉得目前还用不上太多功能,本着快速开发原则,直接使用python requests库抓取。代码一共一百多行,抓取了十万多用户数据,足够使用分析了。
技术清单:
使用python requests和xpath与正则表达式抓取用户信息。
使用MongoDB储存用户信息,包括城市,性别,ID,关注数,粉丝数,讨论数。
使用redis做任务队列,和去重功能。
使用宽度优先算法 。
结果统计:
- 雪球粉丝大于20w的用户:
- 雪球讨论数最多的前20个用户:
源码
源码放在我的Github上,欢迎Star and Fork。