1楼:酷毙呆爽
蜘蛛在访问**
时,最先访问的是该**robots.txt文件如果**有robots.txt文件并且里面有禁止蜘蛛访问的**的话蜘蛛就不会访问了
例如:robots.txt文件中的**为:
user-agent:*
disallow:/
上面这个robot.txt文件禁止所有搜索引擎爬取任何内容
2楼:匿名用户
是蜘蛛不访问未经你授权的文件夹,所以也就不会把你的内容带到服务器
3楼:匿名用户
是没有放入的。禁止收录吧
seo 怎么禁止百度蜘蛛爬某个文件夹?
4楼:匿名用户
禁止spider访问特定目录
在这抄个例子中,该**有三个目录对搜索引擎的访问做了限制,即robot不会访问这三个目录。需要注意的是对每一个目录必须分开声明,而不能写成 "disallow: /cgi-bin/ /tmp/"。
如果想禁止爬行某一文件夹,你可以这么写:
user-agent: *
disallow: /cgi-bin/
disallow: /tmp/
disallow: /~joe/
5楼:匿名用户
需要写bairobots.txt,写robots.txt可以禁止搜索引擎du爬行某个文件zhi或者允许搜索引擎爬行哪个文件,具体的写dao法,网上有,你可以自己搜索看看!
《★你还有其他问题吗?★如果没有请将本答案★选为满意答案★吧!》
6楼:匿名用户
disallow: /tenz/ 把这一行加到robots.txt里面去就可以了啊!
7楼:古人
写robots.txt文件 去同类**看看人家的写法
如果robots.txt禁止蜘蛛爬**后台目录会怎样
8楼:匿名用户
这个回答的好,在首页弄一个随机文章的列表,每次生成主页的时候,这个列表页就会更新,这样也会带动主页的更新,让蜘蛛抓取!
9楼:匿名用户
那么蜘蛛就不会进入这个目录,不会抓取目录下的网页
robots.txt应该写哪些,禁止哪些,允许收录哪些
10楼:匿名用户
你想哪些搜索引擎的蜘蛛索引就你允许,反之就禁止呗。要禁止蜘蛛爬取你的重要文件夹,比如存放用户密码信息的
robots.txt禁止访问特定目录下的部分文件怎么写?
11楼:手机用户
生动的叫做“蜘蛛”
蜘蛛在爬去**页面之前,会先去访问**根目录下面的一个文件,就是robots.txt。这个文件其实就是给“蜘蛛”的规则,如果没有这个文件,蜘蛛会认为你的**同意全部抓取网页。
robots.txr文件是一个纯文本文件,可以告诉蜘蛛哪些页面可以爬取(收录),哪些页面不能爬取。
举个例子:建立一个名为robots.txt的文本文件,然后输入
user-agent: * 星号说明允许所有搜索引擎收录
disallow: index.php? 表示不允许收录以index.php?前缀的链接,比如index.php?=865
disallow: /tmp/ 表示不允许收录根目录下的tmp目录,包括目录下的文件,比如tmp/232.html
12楼:祥腾资讯
不想被扫描到的,写上绝对路径,
基本上可以理解为一一对应,总之绝对路径
如何设置robots.txt文件,完全禁止某个搜索引擎。对于其它的搜索引擎,则限制某些文件夹或文件?
13楼:匿名用户
如何正确配置你的robots.txt?新站上线,最希望能够尽快被搜索引擎收录。只有收录,才有后
面的许许多多seo。
一般来说,baidu对于新站是来者不拒,有很多都是滥竽充数,而google相对较慢了,原因是google对于新站都有一定的审核机制,防止一些新站利用黑帽seo短时期内即取得较好排名,这是一个最重要的可能原因。
当然,我们并不希望搜索引擎收录**中的任何页面。其中某些页面——由于隐私、管理等等——并不希望被收录。
当搜索引擎来**抓取页面时,它们会先查看该站的robots.txt文件,以了解你所允许它抓取的范围,包括哪些文件,哪些目录。
正确的配置**的robots.txt非常重要,错误的配置会导致搜索引擎不能很好的收录甚至无法收录,这种案例现在仍有发生,有的博客建立以后长达几个月没有被收录。
各个搜索引擎都有自己的搜索机器人(robots)在为他们工作,这些robots在网络上沿着网页上的链接(一般是http和src链接)不断抓取资料建立自己的数据库,正是得益于这些机器人的勤劳工作,才有如此海量的数据供我们检索。
下面是一些搜索引擎的机器人名称:
机器人名称 搜索引擎
baiduspider http://****baidu.***
googlebot http://****google.***/
msnbot http://search.msn.***/
fast-webcrawler http://****alltheweb.***/
ia_archiver http://****alexa.***/
scooter http://****altavista.***/
slurp http://****inktomi.***
14楼:i逍遥游侠
user-agent: baiduspiderdisallow: /
user-agent: baiduspiderdisallow: /
user-agent: *
disallow: /bin/
disallow: /abc.aspx
robots.txt禁止百度蜘蛛抓取**上所有**利弊有哪些?
15楼:金融城资源库
disallow:/back
disallow:/bespeak
disallow:/img
disallow:/*.css
disallow:/*.js
disallow:/*.jpg
disallow:/*.jif
disallow:/scripts
我是我的**,抄, 因为大部分蜘蛛是不抓取**的,所以写的都没有的!!!!建议屏蔽了
16楼:匿名用户
占资源把,或者写个规则,屏蔽你的**目录的抓取规则
17楼:匿名用户
这个问题吗,我也很想知道啊!!!高手们多帮帮忙啊
如何设置robots.txt禁止或只允许搜索引擎抓取特定目录?
织梦的robots文件需要禁止抓取哪些文件
18楼:匿名用户
一般后台文件bai 安装文件du 模板,动态链zhi接以及感觉网页质量不dao怎么利于排专名的页面,都属给禁止抓取的吧!
sitemap: http://****dianmowan.**/sitemap.xml
user-agent: *
disallow: /admin*
disallow: /data/
disallow: /include/
disallow: /plus/
disallow: /templets/
disallow: /uploads/
19楼:潘永波
主要是抄官方的一些文件夹,你bai可以参考一下这个 然后考虑du禁止哪些
../a 默认生成
zhi文件存放目录dao
../data 系统缓存或其他可写入数据存放目录../dede 默认后台登录管理(可任意改名)..
/images 系统默认的部分系统需要的**目录../include 程序核心系统文件目录../install 安装文件目录
../member 会员系统目录
../plus 插件及辅助功能目录
../special 专题目录
../templets 模版目录
../uploads 默认上传文件目录
../index.php **默认动态首页文件../robots.txt 限定搜索引擎命令../tags.php tag标签文件