17
2009
09

指定规范网页,防止网页被重复收录

很多时候,我们在建立一个网页的过程中,经常会有一些小问题没有注意,导致后期在进行优化的时候,发现本来可以一开始就避免的问题,变得相当的难处理。
比如一个站点的URL规范化,就是一个相当令人头痛的问题。

程序员在写程序的时候,可能根本不会考虑程序生成的URL是否要全站统一,因为不管URL大小写如何变,用户都能访问到同一个页面,但是搜索引擎会收录URL不同的同一个页面。

当这个页面被建立无数的URL地址并且在链接时,这个页面会被收录多次,这是个不容忽视的问题。比如以下的URL地址,指向的是同一个页面:

# http://ent.qq.com/zt/2009/jgdy/topic_html/jgdyvid3.htm
# http://ent.qq.com/zt/2009/JGDY/topic_html/jgdyvid3.htm
# http://ent.qq.com/ZT/2009/jgdy/topic_html/jgdyvid3.htm
# http://ENT.qq.com/zt/2009/jgdy/topic_html/jgdyvid3.htm
#...
# http://ent.qq.com/zt/2009/jgdy/topic_html/JGDYWID3.htm

当然,形式可以变化出无穷无尽的来,不用多举例了,这些页面都可能正常被收录,造成的重复后果,有SEO常识的人都清楚。
这种问题在大中型站点中很突出,通常是由于一开始没有规范程序标准而引起的。

当然也有人为的原因及被动的原因,人为的原因就是网站本身的宣传人员在进行链接建设的过程中,对URL大小写忽视造成的。被动的原因是用户或者其它站点的采编人员在转载过程中,对URL大小写忽视造成的。自己的宣传人员造成的问题根源也在没有规范化,一开始就要统一URL形式,要有这种意识及标准,去提醒规范这些东西。被动造成的情况比较麻烦,只能通过站内的一些处理来告诉搜索引擎这个页面的原型是哪个,哪个是规范化的页面,请搜索引擎处理不规范的页面,对其不进行收录。

谷歌是有个这标签可以定义的,在谷歌的这篇帮助里有明确的说明:

.....
如果 Google 知道这些网页的内容相同,我们可能只会将搜索结果的一个版本编入索引。我们的算法会选择我们认为可以最好地回答用户查询的网页。不过,现在用户可以通过将 <link> 元素和 rel="canonical" 属性添加到该网页非规范版本的 <head> 区域来为搜索引擎指定规范网页。添加此链接和属性可以让网站拥有者识别出哪些网页具有相同的内容,从而向 Google 提出建议:“在内容相同的所有网页中,此网页最有用。请将该网页排在搜索结果中靠前的位置”。

如何指定规范网页?

要指定网页 http://www.example.com/product.php?item=swedish-fish 的规范链接,请按照下面的指示创建 <link> 元素:

<link rel="canonical" href="http://www.example.com/product.php?item=swedish-fish"/>

将上述链接复制到该网页所有非规范版本的 <head> 部分,比如 http://www.example.com/product.php?item=swedish-fish&sort=price。

如果您在 http://www.example.com/product.php?item=swedish-fish 和 https://www.example.com/product.php?item=swedish-fish 上都发布了内容,则可以指定该网页的规范版本。创建 <link> 元素的步骤:

<link rel="canonical" href="http://www.example.com/product.php?item=swedish-fish"/>

将上述链接添加到 https://www.example.comproduct.php?item=swedish-fish 的 <head> 区域。

rel="canonical" 是建议还是指令?

通过此新选项,网站拥有者可以建议 Google 应将哪个网页版本视为规范版本。在确定哪些网址包含相同的内容以及计算其中关联性最强而要显示在搜索结果中的的网页时,Google 会结合其他信息考虑此建议。

此链接可以是相对的或是绝对的吗?

rel="canonical" 属性可与相对链接或绝对链接一起使用,但我们建议使用绝对链接,以减少可能出现的混乱或问题。如果您的文档指定了一个基础链接,则所有相对链接都会相对于该基础链接。

一组网页上的内容必须与规范版本的上内容相似吗?

是的。rel="canonical" 属性只能用来指定包含相同内容(即使存在微小差异,比如排列顺序,也无关紧要)的大量网页的首选版本。

例如,如果某网站有一组网页显示了相同型号的舞蹈鞋,只是每个网页图片中鞋的颜色有所不同,那么您可以将能突出当下最流行色彩的网页设置为规范版本,这样 Google 就比较容易将该网页显示在搜索结果中。不过,如果该网站只是想把凝胶鞋垫的网页排在鞋的网页之前,那么使用 rel="canonical" 就不合适了。
......
查看原文

可能大家还没有碰到站点存在的这些问题,或者没有注意到,核桃希望看过文章的人能有这种意识,就是要提前统一一种URL标准,这样对站点的优化是重要的,如果出现了情况再来进行处理的时候,由于数量多,处理过程将是相当的漫长。

如果大家确实碰到了,除了解决程序方面的问题以外,可以使用ROBOTS文件来进行处理,但是大小写URL造成的,是挺麻烦的,对于动态与静态都能访问同一页面的情况,我们最好禁掉动态URL。当然,谷歌的另一篇建议也许对大家有所帮助!

« 上一篇 下一篇 »

评论列表:

1.bebebe  2009-09-17 13:17:45 回复该评论
最近也在关注重复网页的问题;有一个问题向你请教,就是带WWW和不带WWW的问题,按正常程序,不带WWW的作301转向至WWW的,可我的站都放在虚机上,无法操作;按照网上的方法,如果是asp或php可以通过代码来转,可我的站用的是CMS系统,已生成静态,无法通过这一途径来操作。
我现在操作的方法比较笨,就是作域名解析的时候,只作WWW的解析,不作不带WWW的,也没有对不带WWW的转发,请问这样操作合适吗?
2.广州SEO  2009-09-17 13:25:52 回复该评论
明白了........
3.骷髅小鬼  2009-09-17 14:11:29 回复该评论
网站URL还是都小写的比较好
4.狂野小虫  2009-09-17 15:16:48 回复该评论
URL的标准化确实是一个很重要的、不容忽视的因素
因为URLS是搜索引擎和用户的桥梁
如果这个桥梁没做好的话,蜘蛛就很难爬行了
5.广州seo咨询室  2009-09-19 23:30:03 回复该评论
现在这种情况好多了,大家的意识提高了很多了
6.中药  2009-11-04 14:29:28 回复该评论
学习了,以后注意下
7.seo  2009-12-15 09:53:33 回复该评论
&quot;最近也在关注重复网页的问题;有一个问题向你请教,就是带WWW和不带WWW的问题,按正常程序,不带WWW的作301转向至WWW的,可我的站都放在虚机上,无法操作;按照网上的方法,如果是asp或php可以通过代码来转,可我的站用的是CMS系统,已生成静态,无法通过这一途径来操作。
我现在操作的方法比较笨,就是作域名解析的时候,只作WWW的解析,不作不带WWW的,也没有对不带WWW的转发,请问这样操作合适吗?&quot;
一楼的兄弟,其实这些对你网站的影响还是很小的,这篇文章主要分析的是网站整体的URL结构问题。
7.核桃  2009-12-27 17:58:41 回复该评论
可以的啊,没什么问题
如果你觉得有必要考虑用户体验的,可以将不带WWW的转向到一个内页,比如“关于我们”页面
8.悟空  2010-01-29 23:11:50 回复该评论
对于动态页面而言,未生成html前,怎样把含有rel="canonical"的link语句加到页面的<head>里面呢?
9.核桃  2009-12-27 17:58:41 回复该评论
可以的啊,没什么问题
如果你觉得有必要考虑用户体验的,可以将不带WWW的转向到一个内页,比如“关于我们”页面

发表评论:

◎欢迎参与讨论,请在这里发表您的看法、交流您的观点。