笔记:搜索引擎工作原理概述(回帖有奖)


搜索引擎工作原理概述 搜索是查找,搜索引擎是查找工具。汽车发动机引擎能给汽车带来源源不断的动力,搜索引擎能给用户带来源源不断的信息。 搜索引擎可以简单的理解成:一套能够给用户提供检索服务的程序系统。这套系统的大致“工作”就是在浩瀚无穷的互联网上进行搜集并处理信息。信息搜集来后,根据用户的需求制定相关规则进行处理,存放,方便在用户查询检索的时候能够给予合理的排序来满足用户的要求。 搜索引擎的工作大致可以分成四个阶段:抓取、过滤、索引、展示排序。 1.抓取。 搜索引擎通过外部链接,或者用户提交到搜索引擎的路径,来对网页进行抓取,进而收集浩如烟海的信息。 抓取的时候,有广度抓取和深度抓取之分,按照重要性原则有限抓取,以便在无限资源之中给予用户最好的信息。深度一般不宜超过三级,权重高的网站更容易抓取到更深的页面。 搜索引擎抓取信息的时候,更容易识别文字信息,进而精确定位网页内容,这一点用过识图的朋友更能体会。 怎么看自己的网页有没有在搜索引擎收录呢?直接把相关页面链接放到搜索框查找即可。 2.过滤。 为什么要过滤?自然是为了甄别挑选出更好的东西,犹如海水变成淡水,不过滤就不能喝。对于搜搜引擎而言,也就是把那些高质量能解决用户需求的东西留下来,把那些无效的、虚假的、不能解决用户需求的东西遗弃掉。 过滤掉的页面比如以下几点: (1).没有任何价值的低质量的页面。 (2).文不对题的页面。 (3).内容丰富度不高的页面,或者空白页面。 (4).不能解决用户需求或问题的页面。 3.索引。 抓取是收集资料,过滤是筛选资料,索引就是对资料整理和排序。索引库是把这些信息按照某些规则进行梳理和存放。 4.展示排序。 当用户在搜索框搜索东西的时候,搜索引擎从索引库里边调用出相关内容,这些内容的排序顺序是尽可能的按照用户的需求来排列,达到解决用户查询的目的。 整个搜索引擎的工作过程,可以类比我们熟知一句名言来理解:博学之,审问之,慎思之,明辨之,笃行之。博学之是采集的过程,审问、慎思、明辨是处理与排序的过程,而笃行就是坚决按照之前学习的结果来执行的过程,也就是搜索之后调用出来排序的过程。 过滤与索引也可以对比5s管理里边的整理和整顿来理解。整理是区别要与不要,只留下需要的东西,是过滤的过程。整顿是按照相关规则进行标识与排序,也就是索引的过程。 问题: 1.同一个页面,既有可能被百度、360抓取,也有可能被Google、Yahoo抓取,不同搜索引擎之间是否可以相互抓取各自的页面? 2.上面这篇文章是按照老师上课笔记整理的,假如这篇文章作为博文发表,算是原创还是伪原创?文章质量在搜索引擎看来如何?