robots.禁止访问特定目录下的部分文件怎么写

2021-02-02 10:22:24 字数 541 阅读 3312

1楼:手机用户

生动的叫做“蜘蛛”

蜘蛛在爬去**页面之前,会先去访问**根目录下面的一个文件,就是robots.txt。这个文件其实就是给“蜘蛛”的规则,如果没有这个文件,蜘蛛会认为你的**同意全部抓取网页。

robots.txr文件是一个纯文本文件,可以告诉蜘蛛哪些页面可以爬取(收录),哪些页面不能爬取。

举个例子:建立一个名为robots.txt的文本文件,然后输入

user-agent: * 星号说明允许所有搜索引擎收录

disallow: index.php? 表示不允许收录以index.php?前缀的链接,比如index.php?=865

disallow: /tmp/ 表示不允许收录根目录下的tmp目录,包括目录下的文件,比如tmp/232.html

2楼:祥腾资讯

不想被扫描到的,写上绝对路径,

基本上可以理解为一一对应,总之绝对路径

如何设置robots.txt禁止或只允许搜索引擎抓取特定目录?