什麼是 robots.txt

robots.txt 是一個用於網站的標準文件,用於指示網絡機器人(例如搜尋引擎爬蟲)如何訪問網站的特定頁面或資源。這個文件通常位於網站的根目錄下,並命名為"robots.txt"。

當網路機器人訪問一個網站時,它會先檢查該網站的 robots.txt 文件,並根據其中的指示來確定哪些頁面或資源是允許訪問的,以及哪些是禁止訪問的。透過這種方式,網站擁有者可以控制搜尋引擎爬蟲的行為,例如避免爬取特定頁面,限制爬取頻率,或者防止爬取特定資源。

robots.txt 文件使用一些特定的語法和指令來指示爬蟲。以下是一些常見的指令:

  • User-agent:指定要應用指令的爬蟲代理(例如Googlebot)。
  • Disallow:指定不允許訪問的頁面或資源的路徑。
  • Allow:指定允許訪問的頁面或資源的路徑。
  • Crawl-delay:指定爬取的延遲時間(以秒為單位),以控制爬取頻率。
  • Sitemap:指定網站的XML Sitemap文件的位置,提供爬蟲更詳細的網站結構資訊。

值得注意的是,robots.txt文件僅僅是一種建議,它可以指導大多數爬蟲的行為,但並不能阻止不遵守這些指令的爬蟲訪問網站的

延伸閱讀:SEO基礎:檢索 (Crawl) 與索引 ( Index )

如何編寫及提交 robots.txt 檔案

  1. 打開任何文字編輯器。
  2. 在空白文件中,開始編寫 robots.txt 的規則。
  3. 首先,設置 User-agent(使用者代理)指令,用於指定要設置規則的爬蟲代理。以下是一個示例:

    User-agent: *

上述示例中的星號(*)是一個通配符,表示應用於所有爬蟲代理。接下來,指定允許或禁止爬取的 URL 規則。以下是一些示例:

禁止所有爬蟲訪問所有頁面:

User-agent: *
Disallow: /

允許所有爬蟲訪問所有頁面,但禁止訪問特定目錄:

User-agent: *
Disallow: /private/

上述示例中的 /private/ 是一個目錄路徑,您可以根據需要修改為您想要禁止訪問的目錄。

  1. 編寫完整的 robots.txt 文件後,將其保存為 "robots.txt"。
  2. 將 robots.txt 文件上傳到您的網站的根目錄下。您可以使用 FTP 或其他文件管理工具將文件上傳到網站的根目錄。
  3. 確保您的 robots.txt 文件可以被訪問。在瀏覽器中輸入 https://yourwebsite.com/robots.txt,將 yourwebsite.com 替換為您的網站域名,以確認文件是否可以正確訪問。

robots.txt 與 SEO 的關係

robots.txt 文件與 SEO(搜尋引擎優化)之間有密切的關係。儘管 robots.txt 文件本身並不直接影響網站在搜尋引擎結果頁(SERP)中的排名,但它在指導搜尋引擎爬蟲訪問和索引網站內容方面起著重要作用,進而影響網站的可見性和搜尋引擎索引的範圍。

  1. 控制爬取範圍:robots.txt 文件允許您指示搜尋引擎爬蟲訪問和索引網站的特定頁面或目錄。通過適當配置 robots.txt,您可以控制搜尋引擎爬蟲訪問和索引哪些內容,以確保僅公開和重要的頁面被索引,
  2. 避免重複內容:搜尋引擎爬蟲訪問網站頁面時,可能會遇到重複內容,例如通過不同的 URL 可以訪問到相同的內容。透過 robots.txt,您可以指示爬蟲忽略或訪問特定版本的內容,從而避免重複內容對 SEO 的負面影響。
  3. 提高爬取效率:通過適當的 robots.txt 配置,您可以指示爬蟲忽略不需要爬取的頁面或目錄,從而提高爬取效率。這有助於爬蟲更加專注於重要的內容,提高網站在搜尋引擎中的索引速度和可見性。

延伸閱讀:【SEO入門】canonical和robot介紹