Jiajie's nap

如何‘下载’华工图书馆的馆藏电子书？

April 02, 2016

今天到图书馆找本电机与控制系统的书，刚好图书馆提供了这本书的电子版。华工的馆藏电子书提供全文浏览、截图以及最多4页的打印（pdf）。你想一下子下载整本pdf电子书那是没门的。要想离线查看整本电子书，要么每4页下载一次，要么每页另存jpg，都是糟心的事。所以可以写个小程序，把整本书‘下载’下来。

方案选择

华工图书馆不需要登录，就可以查询书籍，在书籍介绍页可以点进去相应的馆藏电子书。电子书是逐页jpg的方式展示的，静态资源，替换url最后的页码数就可以跳转到相应页。所以，不需要考虑header、cookies等问题，直接访问对应jpg链接就可以下载到图片了。

March 13, 2016

学习Python过程中，第一个练手实例——爬取学院新闻网页，并正则匹配得新闻标题和链接。

抓包

一开始我是想在学院网的新闻动态页（固定url的页面）爬取所有的新闻title和link缓存起来，然后再用搜索的算法根据关键词匹配其中的新闻。后来觉得太麻烦了，搜索算法不好写，而且缓存那么多新闻并匹配也实在繁琐。

所以还是采取“正常”的做法，就是模拟浏览器动作——模仿操作者在学院网首页输入关键词，调用学院网后台的搜索程序，得到返回结果。所以我们得知道浏览器是怎么向服务器提交表单并接收返回的，这就是“抓包”。

一般浏览器都内置了“控制台”之类的调试工具，可以查看当前网络交互情况......

February 21, 2016

Jan. 2016 Python|Codecademy

Codecademy是一个在线、互动的编程学习平台。简短有趣的过关式的课程可以使初学者很快地了解一门语言的概况，并且动手敲一下基础用法的相关代码。我的Html&CSS和Python入门之旅都在此网站度过的。

Python课程学了五天，主要是Python的基本知识：

+ Python Syntax

+ Strings and Console Outp......