北京 上海 广州 深圳 >>
网站建设
我们的优势
我们的报价
联系我们
首 页 关于我们 建站套餐 网站优化 网站推广 解决方案 成功案例 客服中心 建站问题 推广知识 建站知识  
网站优化
  搜索引擎优化
  网站诊断分析
  网 站 重 构
  网站优化流程
  搜索营销服务
  网站优化知识
最新客户
   
网站推广
推广知识
 
· 浅谈造成网站关键字排名
· 浅谈最近百度调整对网站
· 分析:站内锚文本链接使
· 细节成就权重 权重决定
· 根据百度有效反链数据
· 详解SEO策略制定中的
· 关键词排名优化之挖掘长
 
网站优化知识
 
 
搜索引擎指南robots.txt文件

  有一种力量其实一直在渗入大量的网站和页面,我们通常看不到它们,而且它们通常也很蛮横,大部分人甚至不知道它的存在,大家不要误会,其实我说得是搜索引擎爬虫和机器人。每天,上百个这样的爬虫会出来对网站进行快速的搜索。不管是不是google打算对整个网络进行索引,还是spam机器人打算收集大量的 email地址,通常它们这样的寻找是漫无目的的。作为网站拥有者,我们可以通过一个叫做robots.txt的文件来控制哪些动作是机器人可以做的。

  创建robots.txt文件

  好,现在我们开始行动。创建一个叫robots.txt的文本文件,请确保它的文件名是正确的。该文件必须上传到在您的网站的根目录下,而不是二级目录下(例如,应该是http://www.mysite.com,而不是http: //www.mysite.com/stuff),只有满足以上两点,即文件名正确和路径正确,搜索引擎才会根据该文件中的规则工作,否则 robots.txt仅仅只是个常规文件而已,没有任何作用。

  现在,你已经知道如果这个文件该如何命名,以及应该把它上传在何处,接下来你会学习在这个文件中键入命令,搜索引擎会遵循一个叫做“机器人排除协议”(Robots Exclusion Protocol)的协议。其实,它的格式很简单,并且能够满足大多数的控制需要。首先是一行USERAGENT用来识别爬虫类型,紧跟着的是一行或者多行DISALLOW,这些行是用来限制爬虫访问网站的一些部分的。

  1) robots.txt基本设置

  User-agent: *

  Disallow: /根据以上的声明,所有的爬虫(这里用*表示出来)均不允许对您的网站的任何部分进行索引,这里的/表示所有页面。通常情况下这不是我们需要的,但这里仅仅是让大家有个概念而已。

  2) 现在让我们做一些小小的改动。尽管每个站长都喜欢Google,但是你可能不希望Google的镜像机器人挖掘你的网站,也不希望它把你的网站的镜像放在网上,实现在线搜索,如果仅仅是为了节省你的网站所在的服务器的带宽,下面的声明可以做到这一点

  User-agent: Googlebot-Image

  Disallow: /3) 以下代码不允许任何一个搜索引擎和机器人挖掘目录和页面信息

  User-agent: *

  Disallow: /cgi-bin/

  Disallow: /privatedir/

  Disallow: /tutorials/blank.htm4) 你还可以对多个机器人设置不同的目标,看看下面的代码

  User-agent: *

  Disallow: /

  User-agent: Googlebot

  Disallow: /cgi-bin/

  Disallow: /privatedir/这个设置很有趣,这里我们禁止了所有的搜索引擎对于我们的网站的挖掘操作,除了google,在这里Google被允许访问除了/cgi-bin/和/privatedir/以外的所有站点。这里说明,规则是可以定制的,但不是继承而来的。

  3) 有另外一种使用Disallow的方法:即允许访问网站所有内容,其实只要冒号后不输入任何东西就可以了

  User-agent: *

  Disallow: /

  User-agent: ia_archiver

  Disallow:在这里,除了alex以外的所有爬虫都不允许搜索我们的网站

  4) 最后,一些爬虫现在支持Allow规则,最著名的就是Google。正如这个规则的名字所说,"Allow:"允许你精确的控制那些文件或者文件夹是可以被访问的。然而,这个文件目前还不是robots.txt协议的组成部分,所以我建议只有在必须使用时才使用它,因为一些不够聪明的爬虫可能认为它是错误的。

  下面的内容来自于Google's的FAQs for webmasters,如果你希望除了Google以外的爬虫都不挖掘你的网站,那么以下的代码是做好的选择

  User-agent: *

  Disallow: /

  User-agent: Googlebot

  Allow: /

  原文:http://javascriptkit.com/howto/robots.shtml  译者:Tony Qu,BluePrint翻译团队

 
在线咨询
     
 
QQ咨询
旺旺咨询
 
MSN咨询
  点击开始咨询 点击开始咨询
  点击开始咨询 点击开始咨询
建站服务
       经济型网站设计套餐 ¥2580
       企业型网站设计套餐 ¥3980
       豪华型网站设计套餐 ¥6580
       商城型网站设计套餐 ¥7580
       定制型网站设计套餐 ¥面 谈
       智赢型ABC ¥1580/1980
虚拟主机
       普及型(电信)350元/年
       经济型(电信)650元/年
       普及A型(双线)500元/年
       普及B型(双线)900元/年
       外贸型(国外) 550元/年
       企业型(国外) 1050元/年
我要订购主机>>       
域名注册
     国际顶级域名.com 100元/年
     国际顶级域名.net 100元/年
     国际顶级域名.cc 380元/年
     国际顶级域名.org 180元/年
     中国顶级域名.cn 100元/年
     中国顶级域名.com.cn 100元/年
     中文域名.中国.公司 280元/年
我要注册域>>       
 友情链接:湖南网站建设 广州网站建设 上海网站建设 广州网站建设公司 中山网站制作 网页设计网 网页设计公司 网站制作 网站建设 建网站公司 珠海网站建设 赢在网络
 业务范围: 广州虚拟主机 广州网站设计 广州网页制作 广州网页设计 深圳网站建设 珠海网页设计 中山网页制作 汕头网站设计 番禺网页制作 南海网站建设 肇庆网页制作

联系我们 | 建站套餐 | 网站建设 | 建设知识 | 服务报价 | 解决方案 | 成功案例 点击开始咨询 点击开始咨询
Copyright 2005-2020 win580.com rights reserved 电话:020-87518743 87518740  传真:020-87518740
地址:广州市天河区中山大道西8号(天河商贸大厦)1304室  邮编:510620
E-mail:Win580@126.com