怎样利用百度蜘蛛referer找到报错页面入口?众人应当都晓得百度依然全站https并撤销referer主要词显现了,那么“百度蜘蛛referer“又是什么?有什么妙用吗?艺龙SEO负责人刘明发现经过百度蜘蛛referer不妨迅速定位部分站内url的报错(4xx或许5xx)缘故。随后社区版主飞鹰正义也对文章做了补充更正,现举荐给诸位同窗们。
百度蜘蛛的referer,是指当百度蜘蛛抓取某一个URL的时辰,在HTTP头中带的Referer字段。请关注,这个定义和百度近声明去除Referer中主要词数据没有任何关系。此次讲的是spider提议的HTTP请求,百度而去除的是用户提议的。假如百度蜘蛛抓取百度首页的logo,会提议如此的请求
上面Referer字段很明白的表示了他是从www.baidu.com这个页面上发现并抓取了www.baidu.com/img/bd_logo1.png。而众人在服务器拜访日志中也应当能看到相应的记载。目前发现唯有当百度抓取一个网页的同时,又抓取了网页中的:img、js和css才会带上referer字段。这部分卓殊的抓取量,应当不会占用百度分派的抓取配额,属于“买1送1”。
关于站长的意义
假如你发现有一批URL(仅限于img,js,css)报错(4xx或许5xx),可是一直找不到进口在哪,也即是说你不清楚百度蜘蛛是从哪处发现这些差错URL的。这个字段不妨协助你迅速定位。
举个例子
譬如咱们的SEO日志分析体系中不妨看到,符合底下这种URL Pattern的路径天天有6万到10万的抓取而且所有报404。
从发现问题至今过了1个月,查遍悉数网站我也没找到进口。今日偶然仔细查了一下日志,想起了百度蜘蛛的referer,赶快就可以定位问题了。这些404的URL来自于一套没人爱护也没人关注的页面(往往是如此)。收录流量都不错。由于近公司图片体系更新,图片的URL所有更改了,但这套页面并没有跟随更新。
iis请在这里勾选“cs(Referer)”
apache请参考:
apache log配置“Combined Log Format”章节
apache log配置的链接
Nginx请参考:
nginx log配置
nginx log配置的链接
转载请注明出处。