为什么百度不收录网站内页的原因？

2014-05-30 12:08:33　来源：知讯网络　字体大小：TTT

[摘要] 同ip 站点连带因素查询同ip下的网站，观察这些网站是否有存在类似si 服，xx，赌博这类搜索引擎排斥的网站，这

同ip 站点连带因素
查询同ip下的网站，观察这些网站是否有存在类似si 服，xx，赌博这类搜索引擎排斥的网站，这些网站的近期收

录情况以及权重的初步判断。如果发现这些网站也存在类似的问题，那么说明百度已经对这个服务器 ip 不信任，并采

取了遏制的措施，应该准备转移网站到另外一个服务器或者空间上了。

robots文件和meta robots限制
查看我们网站根目录下的 robots 文件，是否限制了百度蜘蛛的索引，如果 robots 文件并不存在问题的话，也不
要忘记观察网页上的meta robots 属性。尤其是启用了seo 插件的wordpress 站点，比如说all in one seo 这个插件
的设置选项里面，就有noindex category 的选项，如果开启了这个选项，那么蜘蛛爬行到博客分类页面的时候，就会
follow 页面上的链接，但是并不索引分类页面。

域名的历史因素
判断下我们的网站域名在过去是否有人使用过，这个可以通过查询网站的反链接，通过domain 指令判断是否存在
记录以及通过 http://www.remenweb.com/ 这个网站判断之前的域名历史情况。更为详细的可以查看"判断域名是否被K
过的三个方法总结"
导出链接
观察我们网站的导出链接是否有死链接，错误链接，甚至有被百度K掉的网站链接，在搜索引擎排名机制中显示，
当我们的网站存在链接指向一个页面的时候，默认就相当于对这个网页投了赞成票，而如果我们对百度认为的不良站点
使用我们的投票权利，那么被百度惩罚也是正常的。一般来说，内页的导出链接并不会对整站产生影响，所以当我们在
首页中增加链接的时候，必须注意首页指向的网页是被百度所认可的，如果是权威性的页面就更好了。

蜘蛛”陷阱“
蜘蛛抓取页面是基于链接的，如果我们的网站里面存在一些阻止蜘蛛爬行的代码或者是链接中带有过多容易让蜘蛛
迷失的参数的时候，蜘蛛无法继续通过链接抓取页面，自然也就无法收录内页。最典型的比如说，flash类型的网站，
链接通过js脚本调用的网站，或者是嵌套过多表格的网站。

网页内容质量问题
我们都知道，搜索引擎蜘蛛喜欢的是新鲜的，丰富的网页内容，而如果我们的网站内容基本上都是从别的网站转载
过来的，甚至是采集过来的，那么网页不被收录也是情有可原的。互联网上存在的无穷无尽的网页，而且还在以庞大的
基数扩张，搜索引擎想要返回给用户好感兴趣的，真正需要的信息，就必须保持索引库中的网页尽量有意义，收录重复
页面只会让搜索引擎的索引库增多而并不能提高检索精确率。同时，就像我在第二点中提到那样，搜索引擎排斥违法的
，不良信息类型的站点，我们不应该把这些内容填充到网站上去。

优化过度
优化过度这点可能很多人会忽略掉，百度对 SEO 的态度虽然说有一定的改变，但是对那些处理过度的，明显表示
截取搜索流量的网站进行审核和降权的态度肯定是不会改变的。在上篇网站标题(title)书写方法一文中提到的不要在
网站标题中堆砌关键词也是出于同样的考虑。

打印本页邮件给朋友