當前位置:首頁 > seo技術

robots.txt文件問題攻略大全

時間:2019-05-27 08:45:11來源:seo技術作者:seo實驗室小編閱讀:85次「手機版」
 

robots.txt文件

robots.txt文件問題攻略大全,本文中seo實驗室將大家常遇到的關于robots.txt文件的相關問題進行匯總,希望大家又長知識了。

1、robots.txt是什么?

解答:robots.txt是一個純文本文件。簡單說就是一個互聯網協議,是針對搜索引擎蜘蛛抓取網站時的一個提前聲明。通過robots.txt文件告訴蜘蛛,該網站的哪些文件你能訪問抓取,哪些文件不要去訪問抓取,從而規避一些隱私文件或不想被收錄的文件被蜘蛛爬取到,起到一個引導蜘蛛的作用。

搜索引擎蜘蛛爬取網站的第一個文件會優先選擇robots.txt文件,所以在引導蜘蛛時robots.txt文件就顯得尤為重要。

robots.txt文件很重要

2、robots.txt寫法

解答:robots.txt文件的寫法,seo實驗室在《robots編寫秘籍》一文中有詳細的說明,這里做幾個重點說明。

user-agent:* 這里的星號,代表泛指所有的搜索引擎,如需要特指某個蜘蛛,則將各個搜索引擎蜘蛛的名稱寫下即可。

各大常用搜索引擎蜘蛛名稱如下:

Google蜘蛛:googlebot

百度蜘蛛:baiduspider

yahoo蜘蛛:slurp

alexa蜘蛛:ia_archiver

msn蜘蛛:msnbot

bing蜘蛛:bingbot

altavista蜘蛛:scooter

lycos蜘蛛:lycos_spider_(t-rex)

alltheweb蜘蛛:fast-webcrawler

inktomi蜘蛛:slurp

有道蜘蛛:YodaoBot和OutfoxBot

熱土蜘蛛:Adminrtspider

搜狗蜘蛛:sogou spider

SOSO蜘蛛:sosospider

360搜蜘蛛:360spider

屏蔽所有蜘蛛寫法:

user-agent:*

disallow: /

提示:這里的斜杠代表網站根目錄。

屏蔽單個搜索引擎蜘蛛寫法(如屏蔽谷歌):

user-agent:googlebot

Disallow: /

屏蔽單個目錄:

user-agent:*

Disallow: /a/

提示:若a后面不加斜杠/a,表示以a形成的所有文件都屏蔽;加斜杠/a/表示只代表a目錄下的所有文件。

屏蔽單個頁面:

user-agent:*

Disallow: /123.html

釋放已屏蔽目錄中的某個文件:

user-agent:*

Disallow: /a/

Allow: /a/img/

屏蔽所有動態頁面:

user-agent:*

Disallow: /*?*

加入網站地圖文件:

user-agent:*

sitemap: http://www.seo-6.com/sitemap.xml

Sitemap: http://www.seo-6.com/sitemap.html

提示:盡量把鏈接寫完整,免得抓取出錯。

關于robots具體屏蔽那些文件,請閱讀《robots具體禁止什么文件》一文,文中有詳細闡述,這里不細講。

3、robots.txt放在哪里?

解答:robots.txt必須指定放在一個網站的根目錄下,且文件名必須全部小寫。

相應url地址例如:

http://www.seo-6.com/robots.txt

4、robots.txt文件存在限制指令

解答:這個也就是大家,常看到某些網站,快照描述寫著“由于該網站的robots.txt文件存在限制指令(限制搜索引擎抓取),系統無法提供該頁面的內容”,其實就是該網站屏蔽了搜索引擎抓取,淘寶最為明顯。

網站的robots.txt文件存在限制指令

就是這個寫法:

user-agent:*

disallow: /

解決辦法,進入網站根目錄,找到robots.txt文件,刪除掉里面的“disallow: /”,然后等待快照更新就可以了。

5、robots.txt怎么看?

解答:都是進入網站空間,找到根目錄下的robots.txt文件,打開觀察寫法,文件屏蔽,查看是否有誤或新增即可。直接觀察可以在瀏覽器輸入主域名+robots.txt即可觀察,修改還是要到服務器空間或ftp里面處理。

6、robots.txt可以刪除嗎?

解答:可以刪除,但是對蜘蛛很不友好,建議不要刪除,且把內容寫完整。

7、robots.txt允許收錄

解答:允許收錄也就是寫法,參考第二點寫法規則即可。

8、robots.txt安全防滲透說明

解答:一般robots.txt文件中,我們會寫到屏蔽后臺路徑如下:

user-agent:*

Disallow: /admin/

這個路徑我們不能像上面這樣直接寫出來,很容易被別人窺視加以利用,所以一般我們需要設置復雜一點,并用星號泛指來表示。

如下:

user-agent:*

Disallow: /a*n/

將中間部分用泛指表示出來,蜘蛛是可以根據前后對照識別出文件,但別人想要知道就很難了,可防止被攻擊,增加安全性。

9、robots.txt文件本身安全嗎?

解答;robots.txt本身是沒安全問題的,但如果空間被入侵,robots.txt文件被修改可能就會出錯了。不過也很容易察覺到,一旦你發現異常了,修改回來就好了,所以robots.txt文件也需要時常看看是否有問題,做好安全維護工作

好了以上就是這些內容,相信大家已經掌握robots要訣了,還沒明白的就多看幾遍。

相關閱讀

解決FTP上傳文件速度慢的問題

?我們在利用ftp的storeFile()上傳存儲文件的時候,為了讓上傳速度提升,建議采用添加緩沖區的方式,根據上傳文件的大? ? ? ?小,設置

Windows遠程時無法復制文件--殺進程rdpclip.exe,然后再

1.遠程登陸到主機上2.任務管理器殺進程rdpclip.exe3.【開始】,搜索rdpclip.exe,點擊運行此時重新復制文件,可以跨主機復制啦原以為是

產品經理之技術篇:配置文件

文章為作者經歷一個項目后對配置文件的思考總結,希望能夠給你一些啟發。一、為什么要了解配置文件?配置文件是技術童鞋在開發過程中

ffmpeg添加字幕(包含srt文件)

words.srt代碼 1 00:00:00,0 --> 00:00:10,540 旅行有起點也總有終點,旅行是結束也是重生。 生活并未給我們放縱和沉溺的機會,那

C語言:lseek函數-----改變文件偏移量

1.文件偏移 通常調用read或write每讀寫一個文件,就會改變文件的讀寫位置。在linux中同樣可以使用lseek函數來修改文件偏移量,即讀

分享到:

欄目導航

推薦閱讀

熱門閱讀

三肖必中特l三肖中特期期准免费