第二节:搜索引擎基础原理(seo前线seo网站优化培训)


建议参加者:
还没有体会到搜索引擎原理在SEO上有什么用处的培训参加者。
课程内容简介:
解读《走进搜索引擎》,说明哪些是对于SEO需要看的,哪些是相对不重要的。并对于中文分词、倒排索引等重点部分进行详细的讲解。
课后:
逐渐阅读理解《走进搜索引擎》的重点章节。
上半节
1. 抓取系统
爬虫只是个下载器,可以把它想象成迅雷。它本身的分析能力很有限,仅有的分析功能主要是提取页面上的链接从而不断抓取。搜索引擎的大多数分析步骤,都是在页面先被抓回去以后做的。
常见的对于爬虫的误解如,搜索引擎无法很好的抓取动态网页。
2. 分析系统
分析系统会用程序来尽力解读网页的类型、主题等。
3. 索引系统
索引系统将网页内容转化为倒排索引,以支持海量数据的迅速查询。
4. 查询系统
当用户搜索词的时候,会触发搜索引擎的查询系统。它涉及到搜索结果的排序等,一般是SEO最为关注的部分。
《走进搜索引擎》(第二版)重点章节
下载系统
Page 6 搜索引擎的体系结构
Page 12 万维网的直径–扁平化网站的重要性
Page 16 宽度优先策略–百度大致策略
Page 19 不重复抓取策略
Page 25 网页抓取优先策略
Page 26 网页重访策略–快照更新的本质
Page 31 其他应该主要注意的礼貌性问题–抓取压力反馈
分析系统
Page 46 网页结构化的目标–区块重要性差异
Page 52 通过投票方法得到正文
Page 56 网页查重–伪原创不可行 & 特征项
Page 61 中文分词–同关键词对应多个页面是否分散权重
Page 68 PageRank的基本想法–反链有效的原因
索引系统
Page 87 倒排索引–检索的本质 & 关键词的伪概念
查询系统
Page 113 什么是信息熵–原创文章!=有价值的文章
Page 115 检索词和查询词的区别–区域性排名
Page 116 自动文本摘要–不显示description的原因
Page 122 关键词权重的量化方法TF-IDF
Page 137 中文自动摘要–摘要可控
Page 145 推测用户查询意图
排序学习
Page 186 查询相关/无关的排序模型–排名因素的细分
Page 217 排序特征
搜索引擎的性能调优–性能瓶颈
下半节
下载网页 -> 中文分词 -> 倒排索引 -> 查询
Python实例:最简单的搜索引擎
搜索引擎眼中,网页是由大量词构成的。
思考:为什么在网页里面重复出现关键词,有时可以提升排名?