怎么样应付解决搜索引擎蜘蛛抓取页面异常的问题_网站优化

　　搜索引擎在抓取网页的时候，或许会遇见各种状况，有些页面抓取成功，有些抓取失败。如何显示一个页面的实质抓取结果呢?主如果通过返回码进行示意，代表抓取成功与否和遇见的问题。譬如大家容易见到的，有时打开一个页面，页面一片空白，上面只显示404。这里的404就是一种返回码，代表目前抓取的页面已经失效，遇见显示404的页面，假如短期内搜索，蜘蛛再发现这个URL，也不会对其进行抓取。

　　有时，会返回503，503 返回码代表网站临时没办法访问，可能是网站服务器关闭或者其他临时手段导致的网页没办法访问，通常来讲，蜘蛛还会继续抓取几次。假如网站恢复正常，URL仍然被当作正常URL处置，假如服务器一直处于不可访问状况，那样搜索引擎就会将这类URL彻底从库中删除，这就需要大家需要维护网站的稳定性，尽可能防止临时关闭的状况发生。返回码403是禁止访问状况，通常来讲，好似503一样，如被多次访问仍处于禁止访问状况，就会被搜索引擎从库里面删除。

　　在返回码中，有一类需要格外小心，就是301。301代表永久性移除，目前URL被永久性重定向到另外的URL。通常来讲，由于改版等缘由，部分URL需要永久被替换为新的URL，就需要用返回码301进行处置，如此能把网站权重等一并带过去，防止网站的流量损失。

　　返回码301的优化写法如下。

　　(1)创建一个htaccess.txt文件。

　　(2)在htaccess.txt里写好返回码301的跳转信息。

　　假设旧的URL为abc.com，需要重定向到www.abc.com，需在文件里写如下信息。

　　RewriteEngine on

　　RewriteCond %{http_ host} ^abc.com [NC]

　　RewriteRule ^(.*)$ http://www.abc.com/$1 [L, R=301]

　　(3)将htaccess.txt上传到FTP，然后将htaccess.txt修改为.htaccess。

　　需要提醒的是现在htaccess只适用于Linux系统，并需要虚拟主机支持，因此，在考虑.htaccess文件处置返回码301的时候，需要查询虚拟主机是不是完全支持。

　　事实上，在重定向的处置上存在多种方法，简单来讲，重定向可以分为http30x重定向、meta refresh重定向和js重定向。另外，大的搜索引擎公司，譬如Google和百度都确认支持Canonical标签，可以通过拟定一个权威页面的方法，引导蜘蛛只索引一个权威页面，从实质成效上来讲，也是一种间接的重定向。在实质抓取过程中，蜘蛛会对各种重定向成效进行辨别。

　　重定向的办法有多种，但从网站优化角度来讲，若是永久跳转的页面，尽可能使用返回码301的跳转方法。另外，从时间结果来看，百度对Canonical的支持并不如Google好，使用Canonical 未必能得到如期成效。有的网站通过不一样的路径进入同一页面，或许会出现多个URL的状况，当面对这样的情况时，可能需要一些处置方法。

　　外部链接等原因对搜索的排名是有影响的，那样在抓取环节是不是也有影响呢?百度在它的抓取政策上有优先级的说明，即实行包含“深度优先遍历方案、宽度优先遍历方案、PR 优先方案、反链方案、社会化推荐指导方案等”。同时，这也说明每一个方案各有优劣，在实质状况中总是是多种方案结合用才能达到最佳的抓取成效。从这段官方说明里面可以看到PR优先方案、反链方案、社会化推荐等字眼，大家可以觉得，百度在实质抓取的时候，其实都考虑了这类原因，只不过网站权重可能有所不同，因此，尽可能提升网页PR,增加更优质的外部链接，进行优质的社会化推荐，对网站的网站优化工作是有积极意义的。

　　另外，针对网络存在的很多“奋版”“采集”的网页状况，在抓取的过程中，蜘蛛会通过技术判断页面是不是已经被抓取过，并对URL不同但实质内容相同的页面的URL进行归一化处置，即视作-一个URL。也就是告诉网站优化职员，不要通过很多创建页面的方法来获得更多的搜索资源，假如页面不少，但每一个页面的内容重复性非常高，或者只是URL中包括无效参数来达成多个页面，搜索引擎仍然把这类URL当作-一个URL处置，即网站页面不是越多越好，通过功利的方法拼凑网页，很多部署长尾，但页面水平堪忧，成效会事与愿违。假如很多此类页面被搜索引擎判断为低水平页面，或许会影响到整站的网站优化成效。

　　蜘蛛在抓取的过程实质是依据链接不断往下探索的过程，假如链接之间出现短路，蜘蛛就没办法往前爬了。在真实的网站运营中，大家可以看到不少网页实质潜藏在网站后端，蜘蛛是没办法抓取到的，譬如没预留入口链接，或者入口链接已经失效等，这类没办法抓取到的内容和信息，对于蜘蛛来讲就是一个个的孤岛，对网站优化职员来讲就是没完全发挥内容的导流用途。同时，由于互联网环境或者网站规范等缘由也会致使蜘蛛没办法爬行。

　　怎么办信息没办法被抓取到的问题?几个可行的方法如下。

　　●使用搜索引擎平台提供的开发平台等数据上传通道，可以针对数据进行独立的提交。

　　●使用Sitemap提交方法。大型网站或者结构比较特殊的网站，沉淀了很多的历史页面，这类历史页面不少具备网站优化的价值，但蜘蛛没办法通过正常的爬行抓取到，针对这类页面，打造Sitemap文件并提交给百度等搜索引擎是很必要的。

　　蜘蛛在爬行网站的时候，会遵循网站的协议进行抓取，譬如什么网页可以给搜索引擎抓取，什么不允许搜索引擎抓取。容易见到的协议有HTTP协议、HTTPS协议、Robots 协议等。

　　HTTP协议规范了推广客户端和服务器端请求和应答的规范。推广客户端般是指终端用户，服务器端指网站。终端用户通过浏览器、蜘蛛等向服务器指定端口发送HT请求。发送HTTP请求会返回对应的HTTP Heder信息，大家可以看到包含是不是成功、服务器种类、网页近期更新时间等内容。

　　HTTPS协议是-种加密协议，一般用户安全数据的传输。 HTTPS是在HTTP下增加了SSL层，这种页面应用比较多的是和支付有关或者内部保密信息有关的网页。蜘蛛不会自动爬行该类网页。因此，从网站优化角度考虑，在网站建设的时候，尽可能对页面的性质进行区别，对非保密页面进行HTTP处置，才能达成网页的抓取和网站收录。

　　以上就是《怎么样应付解决搜索引擎蜘蛛抓取页面异常的问题》的全部内容，仅供站长朋友们互动交流学习，网站排名优化是一个需要坚持的过程，期望大伙一块一同进步。

如没特殊注明，文章均为建站精灵原创,转载请注明来自http://www.huijianjun.com/news/4/17267.html

常州网站建设公司排名推荐常州装修公司口碑排名

网站建设方法：你做的网页试过“面目全非”吗？