2月16日作业 对搜索引擎排名工作原理的初步了认识


搜索引擎工作原理分为四大流程:第一是抓取,抓取是指爬虫spider通过搜索引擎的抓取方式顺着网页中的超级连接在互联网上搜集网页的信息。而搜索引擎的抓取方式是分为深度抓取和广度抓取两种。深度抓取通俗点来理解可以看成是搜索引擎从上往下的纵向依次抓取页面信息,搜索引擎从首页–导航栏中的一个页面–内容页–再到往下的其他的子页面,直到此栏中的信息抓取完成后spider就会再从别的导航栏中的页面进行抓取网页信息。而广度的抓取是指搜索引擎的横向抓取,搜索引擎把横向同级页面抓取完成之后就会跳往下一级的一个同级页面进行抓取。spider在抓取内容的时候并不是网页中的所有内容都能识别抓取的。不利于蜘蛛抓取的内容中就有js、图片、flash、ifame框架、嵌套table、和需要登录信息的页面。第二是过滤,搜索引擎抓取网网站信息后需要对其抓取到的内容进行筛选把那些文不对题,没有丰富内容,盗版的没有价值的低质量的内容页面过滤掉。第三是存储索引库,搜索引擎过滤把经过抓取过滤后得到的信息存储进索引库里面。第四是展示排序,当用户输入关键词的时候,检索器会在索引库里快速检出与关键词相关的文档,把结果进行排序,最终把结果反馈给用户。