爬取雪球所有用户信息

需求分析

最近想要获取一些雪球的数据,所以写了个小爬虫来抓取。写爬虫时也看了些框架,比如scrapy。觉得目前还用不上太多功能,本着快速开发原则,直接使用python requests库抓取。代码一共一百多行,抓取了十万多用户数据,足够使用分析了。

技术清单:

  1. 使用python requests和xpath与正则表达式抓取用户信息。

  2. 使用MongoDB储存用户信息,包括城市,性别,ID,关注数,粉丝数,讨论数。

  3. 使用redis做任务队列,和去重功能。

  4. 使用宽度优先算法 。

结果统计:

  1. 雪球粉丝大于20w的用户:
    Alt text
  1. 雪球讨论数最多的前20个用户:
    Alt text

源码

源码放在我的Github上,欢迎Star and Fork。

请他喝杯咖啡