什麼是 robots.txt
robots.txt 是一個用於網站的標準文件,用於指示網絡機器人(例如搜尋引擎爬蟲)如何訪問網站的特定頁面或資源。這個文件通常位於網站的根目錄下,並命名為"robots.txt"。
當網路機器人訪問一個網站時,它會先檢查該網站的 robots.txt 文件,並根據其中的指示來確定哪些頁面或資源是允許訪問的,以及哪些是禁止訪問的。透過這種方式,網站擁有者可以控制搜尋引擎爬蟲的行為,例如避免爬取特定頁面,限制爬取頻率,或者防止爬取特定資源。
robots.txt 文件使用一些特定的語法和指令來指示爬蟲。以下是一些常見的指令:
- User-agent:指定要應用指令的爬蟲代理(例如Googlebot)。
- Disallow:指定不允許訪問的頁面或資源的路徑。
- Allow:指定允許訪問的頁面或資源的路徑。
- Crawl-delay:指定爬取的延遲時間(以秒為單位),以控制爬取頻率。
- Sitemap:指定網站的XML Sitemap文件的位置,提供爬蟲更詳細的網站結構資訊。
值得注意的是,robots.txt文件僅僅是一種建議,它可以指導大多數爬蟲的行為,但並不能阻止不遵守這些指令的爬蟲訪問網站的
延伸閱讀:SEO基礎:檢索 (Crawl) 與索引 ( Index )
如何編寫及提交 robots.txt 檔案
- 打開任何文字編輯器。
- 在空白文件中,開始編寫 robots.txt 的規則。
-
首先,設置 User-agent(使用者代理)指令,用於指定要設置規則的爬蟲代理。以下是一個示例:
User-agent: *
上述示例中的星號(*)是一個通配符,表示應用於所有爬蟲代理。接下來,指定允許或禁止爬取的 URL 規則。以下是一些示例:
禁止所有爬蟲訪問所有頁面:
User-agent: *
Disallow: /
允許所有爬蟲訪問所有頁面,但禁止訪問特定目錄:
User-agent: *
Disallow: /private/
上述示例中的 /private/ 是一個目錄路徑,您可以根據需要修改為您想要禁止訪問的目錄。
- 編寫完整的 robots.txt 文件後,將其保存為 "robots.txt"。
- 將 robots.txt 文件上傳到您的網站的根目錄下。您可以使用 FTP 或其他文件管理工具將文件上傳到網站的根目錄。
- 確保您的 robots.txt 文件可以被訪問。在瀏覽器中輸入
https://yourwebsite.com/robots.txt
,將 yourwebsite.com 替換為您的網站域名,以確認文件是否可以正確訪問。
robots.txt 與 SEO 的關係
robots.txt 文件與 SEO(搜尋引擎優化)之間有密切的關係。儘管 robots.txt 文件本身並不直接影響網站在搜尋引擎結果頁(SERP)中的排名,但它在指導搜尋引擎爬蟲訪問和索引網站內容方面起著重要作用,進而影響網站的可見性和搜尋引擎索引的範圍。
- 控制爬取範圍:robots.txt 文件允許您指示搜尋引擎爬蟲訪問和索引網站的特定頁面或目錄。通過適當配置 robots.txt,您可以控制搜尋引擎爬蟲訪問和索引哪些內容,以確保僅公開和重要的頁面被索引,
- 避免重複內容:搜尋引擎爬蟲訪問網站頁面時,可能會遇到重複內容,例如通過不同的 URL 可以訪問到相同的內容。透過 robots.txt,您可以指示爬蟲忽略或訪問特定版本的內容,從而避免重複內容對 SEO 的負面影響。
- 提高爬取效率:通過適當的 robots.txt 配置,您可以指示爬蟲忽略不需要爬取的頁面或目錄,從而提高爬取效率。這有助於爬蟲更加專注於重要的內容,提高網站在搜尋引擎中的索引速度和可見性。