搜索引擎原理大揭秘–详细笔记哦!

搜索引擎工作原理在我们开始做SEO 时,随着一点点的了解我们怎是容易忽略SEO中最重要的知识理论–搜索引擎的工作原理。弄明白搜索引擎的工作原理,那么等遇到问题的时候,我们就知道问题的原因所在了,我们就能更好的优化我们的网站了。一个搜索引擎,一般由下面几个模块组成:yuanli1、抓取模块2、过滤模块3、收录模块4、排序模块1、1抓取模块1、搜索引擎抓取程序:蜘蛛搜索引擎为了可以自动抓取互联网上面数以亿计的网页,必须有一个全自动的页面抓取程序。而这个程序我们一般称之为“蜘蛛”(也可以叫做“机器人”)。无论叫做蜘蛛还是机器人,只要记住指的是搜索引擎的抓取程序就可以了。(不同的搜索引擎叫法不同,如下:)zhizhu谷歌–谷歌机器人百度–百度蜘蛛360–360蜘蛛2、怎么让蜘蛛来抓取我们的网站外部链接:在已经被搜索引擎收录的网站上发布自己网站的链接,来吸引蜘蛛。(常用方法:交换友情链接)提交链接:我们通过链接提交工具提交给百度,百度就会派蜘蛛来抓取我们的网站了。百度网址提交工具网址:蜘蛛自己来抓取:如果希望蜘蛛能够定期主动来自己的网站抓取,必须提供优质的网站内容。3、怎么知道蜘蛛来过我们的网站(1)百度抓取频次工具改工具网址为:(2)服务器日志IIS日志如果服务器开起了IIS日志功能,通过IIS日志文件看到蜘蛛来过的痕迹。4、影响蜘蛛抓取的因素有哪些因素可能造成蜘蛛无法正常抓取我们的网页,我们应该注意以下几点:(1)网址不能过长:百度建议网址的长度不要超过256个字节(一个英文占一个字节,一个中文占两个字节)例:蜘蛛喜欢:蜘蛛不喜欢:(2)网址中不要包含中文:百度对于中文网址的抓取效果比较差。(3)服务器质量差:浏览时总是打不开或打开速度很慢,影响蜘蛛抓取效果(4)Robot.txt屏蔽:由于SEO人员疏忽在Robot.txt文件里屏蔽了百度想要抓取的的页面。(5)避免出现蜘蛛难以解析的字符:如(6)动态参数不要太多太复杂:过多且复杂的路径容易被蜘蛛认为不重要而放弃。1、2过滤模块蜘蛛为了保证自己的存储资源是用户和搜索引擎需要的,而过滤掉自己抓取回来无内容且质量低的页面的功能模块,即过滤模块(1)识别蜘蛛擅长对文字和链接的识别,不擅长图片和链接的识别。对于蜘蛛不擅长的识别很可能被当做垃圾网站过滤掉。(2)内容质量在识别内容的基础上,还会抓取网页内容,与数据库中的内容进行对比,如果与数据库中的内容大部分重复将被过滤掉。1、3收录模块通过过滤模块“考核”的网页,进行分词、数据格式标准化,然后将其存储到索引数据库中程序模块,我们称之为收录模块。1、如何查看某个网页是否被收录把该网址搜索到复制到百度搜索框中进行搜索。shoulu 2、如何查看一个网站的收录量(1)site命令通过“site:域名”的命令,我们可以看到搜索引擎抓取了某个域名下的页面收录量。shou2(2)索引量查询工具shou3(3)收录量少怎么办?a.新站一般来说新站刚上线,要1-2个月才能收录。前期只收录一个首页,百度为了防止垃圾站的泛滥,故意拉长审核时间,要做的就是提供优质内容。b.老站收录量少,是网页内容质量太差导致,应尽快调整网站的内容质量。1、4排序模块对存入数据库中的页面,通过一系列算法得到的每个页面的权重,并且将其进行排序处理的程序,称之为排序模块。1、完善基础优化要想获得良好的排名,首先要做好网页的基础优化,包括:网站定位、网站结构、网站布局、网站代码、网站内容等2、综合数据良好在做好基础优化的基础上,加入你的百度统计后台数据表现良好,用户的忠诚度以及站外推广的效果显著的话,就会在集合线上加分,有利于排名。1、5总结了解搜索引擎的原理有什么用呢?就在于当遇到一些SEO技术问题的时候,可以通过搜索引擎的原理找到原因,轻松应对。