搜索是一种技能

随着信息量呈指数式的增长,如何精确准确地获取自己所需的信息就变得非常重要。有人把信息搜索能力定义为智商、情商外的人类第三种能力——搜商。

搜索引擎绝对是信息时代一个伟大的发明,为个人和信息源搭建一条直接的、无处不在的通道。相对庞大的数据量,人的记忆量只有一点点,所以把自己所需的信息结构化地存储在一个稳定的介质内,并建立稳定的通道,随存随取,无疑是个好的方法。

工具篇

工欲善其事,必先利其器。找到适合自己的搜索工具,并培养与之相应的工作习惯,会让自己的工作效率更高。

网络搜索引擎

网页&图片:Google ——> Baidu ——> Bing

学术:......

Sentence and Tips for Group Discussion

Group Discussion (GD) is one of the elimination round in the interview process where five or eight participants speak about a given topic. Individuals are usually supposed to bring up ideas, solve problems or give comments, and try to draw a conclusion productively.

Initiation

define the mean po......

华为网络技术比赛学习笔记

注:以下内容基本来自support.huawei.com,访问网站注册普通帐号后即有权限查看相关资料。

云计算云计算概念和价值

云计算是一种基于互联网的计算方式,通过这种方式,共享的软硬件资源和信息可以按需求提供给计算机和其他设备。

云计算的演进云计算的关键特征

按需自动服务(On-demand Self-service)

无处不在的网络接入(Ubiquitous network access)

与位置无关的资源池(Location independent resource pooling)

快速弹性(Rapid Elastic)

按使用付费(Pay per user......

如何‘下载’华工图书馆的馆藏电子书?

今天到图书馆找本电机与控制系统的书,刚好图书馆提供了这本书的电子版。华工的馆藏电子书提供全文浏览、截图以及最多4页的打印(pdf)。你想一下子下载整本pdf电子书那是没门的。要想离线查看整本电子书,要么每4页下载一次,要么每页另存jpg,都是糟心的事。所以可以写个小程序,把整本书‘下载’下来。

方案选择

华工图书馆不需要登录,就可以查询书籍,在书籍介绍页可以点进去相应的馆藏电子书。电子书是逐页jpg的方式展示的,静态资源,替换url最后的页码数就可以跳转到相应页。所以,不需要考虑header、cookies等问题,直接访问对应jpg链接就可以下载到图片了。

Python爬取学院网新闻

学习Python过程中,第一个练手实例——爬取学院新闻网页,并正则匹配得新闻标题和链接。

抓包

一开始我是想在学院网的新闻动态页(固定url的页面)爬取所有的新闻title和link缓存起来,然后再用搜索的算法根据关键词匹配其中的新闻。后来觉得太麻烦了,搜索算法不好写,而且缓存那么多新闻并匹配也实在繁琐。

所以还是采取“正常”的做法,就是模拟浏览器动作——模仿操作者在学院网首页输入关键词,调用学院网后台的搜索程序,得到返回结果。所以我们得知道浏览器是怎么向服务器提交表单并接收返回的,这就是“抓包”。

一般浏览器都内置了“控制台”之类的调试工具,可以查看当前网络交互情况......