爬取雪球所有用户信息

发表于 2016-07-10 | 分类于 python |

需求分析

最近想要获取一些雪球的数据，所以写了个小爬虫来抓取。写爬虫时也看了些框架，比如scrapy。觉得目前还用不上太多功能，本着快速开发原则，直接使用python requests库抓取。代码一共一百多行，抓取了十万多用户数据，足够使用分析了。

阅读全文 »

使用PyMongo

发表于 2016-07-05 | 分类于工具使用 |

安装PyMongo

安装命令：pip install pymongo

阅读全文 »

MongoDB使用

发表于 2016-07-01 | 分类于工具使用 |

MongoDB 使用

MAC 上安装MongoDB

首先更新Homebrew的package数据库

brew update

更新完成之后，直接安装MongoDB

brew install mongodb

启动MongoDB

mongod --config /usr/local/etc/mongod.conf

mongod.conf中是关于MongoDB的设置

systemLog://log 目录 
   destination: file
   path: /usr/local/var/log/mongodb/mongo.log logAppend: true
 storage://db目录 
   dbPath: /usr/local/var/mongodb net://网络地址 bindIp: 127.0.0.1

连接到MongoDB

mongo

阅读全文 »

b+树

发表于 2016-06-26 | 分类于算法 |

B+树是B树的一种变形，在叶结点上存储信息。

所有的关键码均出现在叶结点。
各层节结中的关键码均是下一层相应节结中最大关键码（或最小关键码）的复写。

B+树的结构定义如下：

每个结点最多有m个子结点
每个结点（除根结点）至少有［m/2］个子结点
根结点至少有两个子结点
有k个子结点的结点必有k个关键码

和B树相似，B＋树阶的大小是根据外存磁盘叶块大小及关键码域和相应的指针域所占用的空间大小计算得来，考虑到可维护性和空间效率，所以规定每个结点至少有［m/2］个子结点，保证在全满和半满之间。

阅读全文 »

java反射机制

发表于 2016-05-10 | 分类于 java核心 |

什么是java反射机制

java反射机制是在运行状态中，对于任意一个类（class文件），都能够知道这个类的所有属性和方法；对于任意一个对象，都能够调用它的任意一个方法和属性；这种动态获取的信息以及动态调用对象的方法的功能称为java语言的反射机制。

定义听上去比较绕口，实际还是比较好理解的。一般就是用配置文件+实现接口来实现。应用程序读取配置文件，配置文件存着类名，之后应用程序根据类名找到对应的class。

比如tomcat加载servlet的过程,tomcat提供servlet接口，然后我们写的servlet类实现servlet接口，之后将servlet名配置到web.xml文件中，当tomcat启动时会加载web.xml中配置的servlet类。这个过程就是一个反射过程。

阅读全文 »

git使用

发表于 2016-05-10 | 分类于工具使用 |

为什么使用Git

自由，没有什么比自由更能让人向往。想象着在一个海岛，或是一片竹林里，没有网络，离开了嘈杂与吵闹。一杯龙井茶，在大自然的陪伴下，完成自己的项目。代码修改，提交，分支管理…这一切，只需要Git，就足够了。

分布式管理工具

传统的集中式管理工具如SVN，clearcase需要一个中央版本库，所有人干活都需要连接网络然后从服务器下载代码，修改后再去提交到中央服务器。而分布式管理工具是每个人都有一个完整的版本库，自己在自己的版本库中修改提交，而这一切是不需要网络的。虽然大部分时候使用Git也需要一个服务器，但这个服务器的概念不同于集中式版本管理工具的服务器概念，它只是大家为了提交合并代码方便用的，即使没有这个服务器，大家也可以互相提交代码给对方，只不过会相对麻烦一点。所以大家约定俗成找一台机器做服务器，可以把它想象成是一个什么都不做的队友，他只是被动接收大家的代码。

阅读全文 »

Markdown使用

发表于 2016-05-09 | 分类于工具使用 |

使用Markdown

使用Markdown的好处就不多说了，简洁，高效，便捷等。最近准备重新搭建个人博客，年纪大了，记忆力不如从前，好多东西还是要总结记录下来，方便以后翻阅查看。之前的博客是租的服务器，用wordpress搭建的。wp挺好用的，搭建比较简单，主题也多。但随着年龄增大，对一些复杂功能的要求越来越低，反而是简洁的东西更吸引人，且更能专注于写作。加上平时习惯了vim+HHKB的键盘流操作风格和github的使用，自然就选择了markdown+github的方案了。

阅读全文 »