网站优化中应减少重复内容

重复内容通常是指域内或多个域之间存在的、与其他内容完全匹配或大致类似的内容。也就是说一个网站中可能存在许多重复的页面,比如内容页、产品的搜索列表页、不同的url指向同一页面等,这就都是属于重复范围。表面看起来没什么关系,对网站无害。但对蜘蛛而言就是灭顶之灾。当然大多数情况下也不是故意的页面重复.

能够生成用于移动设备的常规和简化网页的论坛

通过多个不同网址显示或链接的存储项目

网页的可打印版本

URL的重复

不同url指向同一页面,这个也算重复页面。蜘蛛爬行是按照链接来爬行的,在爬行之前蜘蛛并不知道这些不同的url指向同一个页面。它会慢慢的去爬行,爬过之后才会知道竟然是重复的页面,在进行相应的处理,表面上看起来也是没有什么问题。实际上蜘蛛已经花了相当大的力气来解析这几个重复的url,这就等于是宽带的浪费一样。

http://www.***.net/

***.net

http://www.***.net/index.html

访问的都是首页,何不如我们做做好事,用301重定向把他转到指定的url。

笔者选择http://www.***.net/这个地址,采用Apache服务器设置方法是,在.htaccess文件中加入以下代码

RewriteEngine on

RewriteCond %{http_host} ^***.net[NC]

RewriteRule ^(.*)$ http://www.***.net/$1 [L,R=301]

RewriteEngine on

RewriteCond %{http_host} ^http://www.***.net/index.html [NC]

RewriteRule ^(.*)$ http://www.***.net/$1 [L,R=301]



详细方法请查看百度百科里的详细介绍http://baike.baidu.com/view/2173220.htm

打印文本的重复

一般网站都会有一个可供浏览的页面,还有一个可以打印的文本。这个打印文本一般是看不出来的,只有需要打印才能看到文本,但内容都和页面文本一样,这就形成了和网页文本的重复。对用户无所谓,但对蜘蛛就不一样了。我们应该避免这个情况出现,解决方法是用robots.txt来禁止蜘蛛抓取打印文本。

底部版权的重复

每个网站都有自己的版权说明,有的网站在底部些了很多关于版权方面的文字,非常的多。其实这个完全没有必要。看看十九楼底部版权如何



非常的清晰明了,把一切关于版权,公司动态,法律声明的东西都放到一个独立页面去,只用文本链接过去。这样也大大降低了样板文字的重复度。

404页面的重复

一个大型网站无可厚非有很多404页面。但这些404页面也是一种资源上的重复。最好是用robots.txt来禁止抓取。

网站搜索的重复

现在的网站都有一个用户喜欢的工具,那就是网站搜索条。对用户而言能更快的找到自己想要的内容,但对蜘蛛不是这么回事,也会增加重复度,所以也要屏蔽它。

一般可以在robots.txt文件里加入Disallow: /search.php$(/search.php)文件要根据你网站系统来定,也就是你网站搜索采用哪个文件来执行搜索的)

Robots.txt文件的应用

我发现好多可以禁止重复页面的方法都可以用robots.txt文件来解决,所以我们一定要掌握robots.txt使用的正确方法,发挥它强大的威力。

百度robots.txt说明 http://www.baidu.com/search/robots.html

不管是做SEO还是做网站,每一个细节都是决定成败的关键,你比别人多付出一点,你就可以稳操胜券。重复页面对蜘蛛而言非常的耗时耗力,我们也该为蜘蛛减减压了。


Tags: ,山西晋城网站建设,晋城在线网页学习,晋城企业智能建站