Jiajie's nap

学习Python过程中，第一个练手实例——爬取学院新闻网页，并正则匹配得新闻标题和链接。

抓包

一开始我是想在学院网的新闻动态页（固定url的页面）爬取所有的新闻title和link缓存起来，然后再用搜索的算法根据关键词匹配其中的新闻。后来觉得太麻烦了，搜索算法不好写，而且缓存那么多新闻并匹配也实在繁琐。

所以还是采取“正常”的做法，就是模拟浏览器动作——模仿操作者在学院网首页输入关键词，调用学院网后台的搜索程序，得到返回结果。所以我们得知道浏览器是怎么向服务器提交表单并接收返回的，这就是“抓包”。

一般浏览器都内置了“控制台”之类的调试工具，可以查看当前网络交互情况......

Python爬取学院网新闻