搜索引擎蜘蛛工作原理-匠才网络营销培训视频课程知识
了解搜索引擎蜘蛛工作原理,和一些基本的概念,有助于了解整个seo技术的来源。我们来看以下术语和搜索引擎蜘蛛的工作的6个重点布置。
什么是蜘蛛?
什么是蜘蛛?
网络爬虫(又被称为网页蜘蛛,网络机器人),是一种按照一定的规则,自动的抓取互联网中网页的程序或者脚本
蜘蛛的工作方式
蜘蛛是通过链接进行爬行并抓取网页的
种子站点
蜘蛛起始的抓取站点,这类站点具有一定的权威性和导航性,如新浪、hao123等
什么是预处理?
蜘蛛抓取的原始页面并不能直接用于查询排名,需要对其进行一定的处理
1. 提取文字
搜索引擎是以文字内容为基础的,从网页文件中去除标签、程序,提取出可以用于排名的网页文字内容
2. 中文分词
分词
分词是搜索引擎特有的步骤,把网页中提取的文字按照词组进行划分
消噪
对内容没有任何影响却大量出现的词,如:的、 地、得、啊、哦、呀、不但、而且等
3. 去除重复页面
镜像网页
内容完全相同,网址不同
倾向原创
4. 计算网页重要度
积分制计算
通过被指向链接计算
网页的原创性
5. 建立索引
索引是建立关键词与网页之间的对应表,建立索引的最大好处在于可快速获取对应的数据
6. 提取链接
根据页面中存在的链接继续抓取