搜索引擎扫盲

搜索引擎扫盲

文本是为了更好的使用搜索引擎而写的。

据说没有搜索引擎可以一次抓取到全网16%以上的网页并排名。

0x01 使用Google

找学术资料的化,真的用Google吧,不是信仰上说说的,在很多细节上,完全是百度不可以替代的。很多东西百度根本就搜不到,特别是用英文搜的时候,可能你翻个几十页还不如Google的前几页有价值。

0x02 搜索技巧

1、过滤不想要的关键词
例如:我想搜索去掉李云景这个关键词的成长技能宝
搜索:成长技能宝-李云景(减号的意思是去掉)

2、并行精准搜索
如果你想同时两次关键词,但是这两个关键词不连贯,这时候你就可以用并行搜索,
比如我要搜索两个关键词:李云景成长技能宝
可以输入:李云景|成长技能宝

3、精准搜索关键词
比如我要搜我自己的名字:李云景,但是由于我的名字“名气不够”,在搜索过程中可能被拆分为“李”和“云景”进行分别搜索,这时候我们可以在关键词打上引号进行精准的搜索
如:关键词输入:“知乎李云景”

4、在标题中限定进行精准搜索
我们想得到的搜索结果标题中包涵我们输入的关键词,这时候我们可以用intitle:进行限定
比如,我要搜索标题中有干货的关键词
输入关键词:intitle:干货

5、精准搜索文档类资料
比如我想美容销售话术的word文档
一般我们会直接输入关键词:美容销售话术,但是这样搜出来的却不是我们想要的文档资料。这时候我们可以在关键词后面输入filetype:doc,
示范:美容销售话术filetype:doc

6、指定链接进行精准搜索
在网页链接中我们可以限定关键词进行搜索,只要在关键词前面加:inurl:
例如:我要精准搜索关键词:learn python
可以输入关键词:inurl:learn python

7、精准搜索网站site
输入关键词前添加site能帮你对指定网站进行站内搜索
比如我搜索关键词:知乎,搜索结果都是站内的内容
可以输入关键字:site:zhihu.com

0x03 搜索引擎技术(题外话)

1
2
3
4
5
很多答案是从使用上讲的,我加两个技术方面的。
1. 搜索引擎需要对抓取到的结果进行管理。当索引结果越来越多时,保证存储和查询速度,保证数万台服务器内容一致的难度越来越高。Google于03至06年左右公布了三篇论文,描述了GFS、BigTable、MapReduce三种技术以解决这些问题。由于Google并没有公布算法细节,因此由雅虎牵头,在06年左右建立了开源项目Hadoop,目的是根据Google的三篇论文,实现一个大规模的管理计算系统。但直到08年,Hadoop同Google公布的一些关键指标仍有几倍的差距。百度曾经由王选院士的一个博士带领,想基于Google论文独立实现(金字塔计划)一个自己的系统,但开发难度过大项目夭折,最终也转向了Hadoop。如今,Amazon、Facebook、Yahoo包括百度都在大规模应用Hadoop,而Google已经从2010年开始迁移到新的三驾马车Caffeine、Pregel、Dremel上了。单就搜索技术而言,Google不是领先百度,而是领先全世界。
2. 2009-2012年,Google公布了世界上第一个全球化的数据库系统Spanner,这套系统将分布在全球各地的数据中心连接到一起,利用原子钟和GPS,打破了地理间隔,实现了全球规模具有一致性和实时性的数据库。在Google之前,很多人认为这种系统不可能做出来,但Google做到了[1]。
另外,除了搜索,Google在深度学习和机器人方面也是全球领先的,尤其是后者。尽管百度也有深度学习研究院,但在这两方面跟Google比起来完全是空白。
事实上,让百度来和谷歌比是很不公平的,搜索只是Google的一个部门,但却是百度一整个公司。Google的竞争对手是Apple、Amazon、Facebook和Microsoft,百度的竞争对手是360、搜狗。Google没了搜索,还有Chrome、Android、Youtube,百度没了搜索,那就什么都没有了。