搜索引擎蜘蛛篇-网络爬虫如何工作？

2020年9月15日
乾龍品牌
SEO营销

SEOer做网站优化时经常分析网站蜘蛛，网络爬虫（又称为网页蜘蛛，网络机器人，在FOAF社区中间，更经常的称为网页追逐者），是一种按照一定的规则，自动地抓取万维网信息的程序或者脚本。另外一些不常使用的名字还有蚂蚁、自动索引、模拟程序或者蠕虫。

搜索引擎蜘蛛(spider)

网页的收录排名是离不开蜘蛛的，蜘蛛其实就是一个爬行程序可以通过网站的URL地址抓取网站信息。

1、百度蜘蛛：Baiduspider
2、谷歌蜘蛛：Googlebot
3、360蜘蛛：360Spider
4、SOSO蜘蛛：Sosospider
5、雅虎蜘蛛：“Yahoo! Slurp China”或者Yahoo!
6、有道蜘蛛：YoudaoBot，YodaoBot
7、搜狗蜘蛛：Sogou News Spider、Sogou XXX spider等
8、MSN蜘蛛：msnbot，msnbot-media
9、必应蜘蛛：bingbot
10、一搜蜘蛛：YisouSpider
11、Alexa蜘蛛：ia_archiver
12、宜sou蜘蛛：EasouSpider
13、即刻蜘蛛：JikeSpider
14、一淘网蜘蛛：EtaoSpider
15、今日头条蜘蛛：Bytespider

这些据说是国外蜘蛛YandexBot、AhrefsBot和ezooms.bot

网络爬虫的案例

网站日志流量统计蜘蛛-SEO
我们看看搜索引擎的对比：
爬虫crawler-百度表现优秀
最高的的是百度，搜索引擎或者浏览器的市场不管怎么吹嘘比例，都无法否认百度蜘蛛/服务器的勤劳，以及其发挥的我国搜索引擎的作用，别人是干不动的。
访问终端-widows居首
访问网站的终端还是windows最多，使用windows的用户通过PC端访问，toB业务还是要依托电脑。
baiduspider-百度蜘蛛爬取案例
百度蜘蛛，Baiduspider在User-Agent的样子，如上图，如果User-agent的值为None或者其他浏览器，而没有搜索引擎，那可能是人-用户的访问，而不是机器-蜘蛛的访问。

robots协议

蜘蛛进入网站最先抓取的文件，可以控制蜘蛛抓取的网站内容，当然，有的蜘蛛不遵守蜘蛛的规则，你拒绝它访问，它还是能访问的，因为这个规则没有被写入法律，法律在技术层面还相当跟不上。
User-Agent: *
Disallow: /
这里的*代表的所有的搜索引擎种类，*是一个通配符 Disallow: /admin/ 这里定义是禁止爬寻admin目录下面的目录 Disallow: /require/ 这里定义是禁止爬寻require目录下面的目录 Disallow: /ABC/ 这里定义是禁止爬寻ABC目录下面的目录 Disallow: /cgi-bin/*.htm 禁止访问/cgi-bin/目录下的所有以”.htm”为后缀的URL(包含子目录)。 Disallow: /*?* 禁止访问网站中所有包含问号 (?) 的网址 Disallow: /.jpg$ 禁止抓取网页所有的.jpg格式的图片 Disallow:/ab/adc.html 禁止爬取ab文件夹下面的adc.html文件。 Allow: /cgi-bin/　这里定义是允许爬寻cgi-bin目录下面的目录 Allow: /tmp 这里定义是允许爬寻tmp的整个目录 Allow: .htm$ 仅允许访问以”.htm”为后缀的URL。 Allow: .gif$ 允许抓取网页和gif格式图片 Sitemap: 网站地图告诉爬虫这个页面是网站地图
robots的使用说明延伸阅读：
robots使用方法
 五分钟SEO入门指南

Post Views: 1,403

SEO 搜索引擎优化

搜索引擎蜘蛛(spider)

网络爬虫的案例

robots协议

分享给他人

你可能还感兴趣：