浅谈robots.txt 文件

发布时间:2017-09-22 编辑:汤利军 阅读:


 
第一次接触robots.txt这个名词、是我自学SEO时接触到的。本以为只有在SEO中才会接触到,没想到python爬虫......
  

什么是robots.txt文件?

  
robots.txt称为搜索引擎爬虫协议,用于声明网站内容可以被哪些搜索引擎蜘蛛抓取。
  
当一个搜索机器蜘蛛访问一个站点时,它会首先检查该站点根目录下是否存在robots.txt,如果存在,搜索引擎爬虫就会按照该文件中的规则来确定抓取的范围;如果该文件不存在(默认允许抓取),那么搜索引擎爬虫就沿着链接抓取。
  
您可以在您的网站中创建一个纯文本文件robots.txt,在这个文件中声明该网站中不想被robot访问的部分,这样,该网站的部分或全部内容就可以不被搜索引擎收录了,或者指定搜索引擎只收录指定的内容。

关注我

图文推荐

云标签

友链交换