网站日志中数据量过大,所以我们一般需要借助网站日志分析工具来查看。常用的日志分析工具有:光年日志分析工具、web log exploer 、WPS表格等
117.26.203.167 - - [02/May/2011:01:57:44 -0700] "GET/index.php HTTP/1.1" 500 19967 "-" "Mozilla/4.0 (compatibleMSIE8.0Windows NT 5.1Trident/4.0AskTbCS-ST/5.11.3.15590.NET CLR 2.0.50727Alexa Toolbar)"
分析:
117.26.203.167:来访ip
02/May/2011:01:57:44 -0700 访问日期 -时区
GET/index.php HTTP/1.1 根据HTTP/1.1 协议 抓取(域名下)/index.php 这个页面(GET表示服务器动作)
500:服务器响应状态码
服务器响应状态码通常状态码有以下几种:200,301,302,304,404,500等。200代表用户成功的获取到了所请求的文件,如果是搜索引擎,则证 明蜘蛛在这次爬行中顺利的发现了一些新的内容。而301则代表用户所访问的某个页面url已经做了301重定向(永久性)处理,302则是暂时性重 定向。404则代表所访问的页面已经不存在了,或者说访问的url根本就是个错误的。500则是服务器的错误。
19967:表示抓取了19967个字节
Mozilla/4.0 (compatibleMSIE 8.0Windows NT 5.1Trident/4.0
AskTbCS-ST/5.11.3.15590.NET CLR 2.0.50727Alexa
Toolbar表示访问者使用火狐浏览器及Alexa Toolbar 等访问端信息
如果你的日志里格式不是如此,则代表日志格式设置不同。
很多日志里可以看到 200 0 0和200 0 64 则都代表正常抓取。
抓取频率是通过查看每日的日志里百度蜘蛛抓取次数来获知,抓取频率并没有一个规范的时间表或频率数字,我们一般通过多日的日志对比来判断,当然,我们希望百度蜘蛛每日抓取的次数越多越好,这里分享下如何分辨百度蜘蛛《如何分辨真假百度搜索引擎蜘蛛IP》。
有时候我们的路径不统一出现带斜杠和不带斜杠的问题,蜘蛛会自动识别为301跳转到带斜杠的页面,这里我们就发现了搜索引擎是可以判断我们的目录的,所以我们要对我们的目录进行统一。
我们分析日志分析时间长了,我们能够看出蜘蛛的抓取规律,同一目录下面的单个文件的抓取频率间隔和不同目录的抓取频率间隔都可以看出来,这些抓取频率间隔时间是蜘蛛根据网站权重和网站更新频率来自动确定的。
蜘蛛对于我们的页面的抓取是分等级的,是根据权重依次递减的,一般顺序为首页、目录页、内页
爱站SEO工具包之网站日志分析工具的使用方法。
1、此工具可以自动识别IIS、Apache、Nginx日志格式,支持直接拖拽日志一个或多个文件(夹)至窗口进行分析,每一项数据都分别以“数据显示”和“图形显示”两种不同方式向用户展示数据结果。
2、蜘蛛分析之(概要分析)即所有不同的蜘蛛的访问次数、停留时间、总抓取量的数据分析,(还可以单选不同蜘蛛)进行查询。
蜘蛛分析之(概要分析)图表显示,(还可以单选不同蜘蛛)进行查询显示。
3、蜘蛛分析之(目录抓取)即站点目录被抓取的数据量分析。
可以针对对某个目录或蜘蛛进行单独查询分析,且可切换至图表显示,显示抓取量饼图,轻松了解蜘蛛抓取目录概况。
4、蜘蛛分析之(页面抓取)
所有页面蜘蛛抓取量分析,还可以针对某个页面或某个蜘蛛进行单独查询分析。切换至图标显示,可以显示页面抓取量饼图,快速了解抓取量最多的页面,轻松分析页面抓取情况。
5、蜘蛛分析之(IP排行)
分析所有蜘蛛IP地址的访问次数、抓取量和停留时长,并可以针对某个ip或蜘蛛进行单独查询分析。
6、搜索引擎分析之(关键词分析)可分析出各搜索引擎来路的关键词。
7、 状态码分析分为用户状态码和蜘蛛状态码。通过查看网站正常状态码和问题状态码,第一时间发现网站的问题页面,及时修改,改善用户体验和蜘蛛体验。
8、按时间统计,工具自动保存不同日期的日志文件数据,每一项统计功能都可以按照时间来分析,可有效查看时间段内的数据变化趋势。(还可以单选不同蜘蛛)进行查询显示。
以上就是爱站SEO工具包之网站日志分析工具的详细介绍。
首先你要到自己放网站的空间里面把网站日志下载下来,一般是.log后缀结尾的,然后你打开爱站seo工具包里的日志分析工具,把你下载好的日志导进去,点击分析就行了,他会自己分析蜘蛛抓取了哪些页面~