Skip to main content

REDMADMEDIA 網誌

回前頁
robots.txt在SEO的功能 - 網上行銷

robots.txt在SEO的功能

· · 專欄: 網上行銷

robots.txt 檔案是管理搜尋引擎爬蟲與網站互動的關鍵元件,它具有以下幾個主要功能:

1) 指導爬蟲行為 robots.txt 檔案主要指示網路爬蟲(例如來自 Google 等搜尋引擎的爬蟲)可以存取和索引網站的哪些部分,透過適用於不同爬蟲的「User-agent」指令,和哪些 URL 不應被抓取的「Disallow」規則,來實現爬蟲的規範。

2) 降低伺服器負載 透過限制爬蟲可以存取的網站區域,robots.txt 檔案有助於管理伺服器負載,這對於大型網站或頁面眾多的網站尤其重要,因為不受限制的抓取可能會使伺服器不堪重負,從而導致效能問題。

3) 防止索引膨脹 使用 robots.txt 可以阻止搜尋引擎索引低價值或重複內容,這些內容會使搜尋結果變得雜亂,並降低網站索引頁面的整體品質,這不利於保持乾淨且相關的搜尋排名。

我以本網站的robots.txt為例子加以解釋,若你到https://redmadmedia.online/robots.txt,你會看到以下這段:

User-agent: *

Allow: /

Disallow: /admin/

Disallow: /accounts/

Disallow: /static/admin/

Disallow: /media/

Crawl-delay: 1

解䆁: User-agent: * — 適用於所有爬蟲 Allow: / — 允許爬取網站根目錄(整個網站) Disallow — 禁止爬取以下目錄: /admin/ — 後台管理頁面 /accounts/ — 帳戶相關頁面 /static/admin/ — 後台靜態資源 /media/ — 媒體檔案資料夾 Crawl-delay: 1 — 每次爬取間隔 1 秒,避免伺服器負擔過重。

另一段是:

# Block bad bots

User-agent: MJ12bot

Disallow: /

User-agent: AhrefsBot

Disallow: /

這兩個是 SEO 分析工具的爬蟲,我選擇完全封鎖它們,因為它們爬取頻率太高,亦不想被這些工具分析。

跟著以下一段是針對 Semrush 的爬蟲設定 10 秒的爬取間隔,比一般爬蟲慢十倍:

User-agent: SemrushBot

Crawl-delay: 10

最後告訴搜尋引擎網站地圖(Sitemap)的位置,方便爬蟲發現網站所有頁面:

Sitemap: https://redmadmedia.online/sitemap.xml

要注意的是,雖然 robots.txt 可以阻止爬蟲進入某些頁面,但它並不能提供安全保障,該檔案是公開可存取的,這意味著不應透過它洩露敏感資訊。為了真正確保安全,應採用其他方法,例如密碼保護或使用元標籤來阻止索引。

再者,大多數信譽良好的爬蟲都會遵守 robots.txt 中設定的指令,但並非所有爬蟲都會遵守這些規則。因此,不建議僅依賴此文件來保護隱私或安全。

此外,即使某個頁面在 robots.txt 檔案中被禁止抓取,如果其他網站連結到該頁面,它仍然可能被索引。

總的來說,robots.txt 檔案是網站管理員控制爬蟲存取、優化伺服器效能以及有效管理網站內容索引的重要工具。但是,在使用 robots.txt 檔案時,應充分了解其局限性,而不應將其作為保護敏感資訊的唯一手段。

0 likes

推薦文章

Bitcoin Stacks: 由 Nakamoto 升級到 sBTC

Bitcoin Stacks: 由 Nakamoto 升級到 sBTC

一直也期待Bitcoin Stacks 升級的來臨,終於實現了!那究竟這個升級帶來甚麼改善? 要理解這個問題,我地要先了解Stacks 點生成區塊:首先,礦工向 Stacker 發送 BTC(…

氣炸洋蔥花,一場味蕾的狂歡。

氣炸洋蔥花,一場味蕾的狂歡。

在廚房的舞台上,食材們總是等待著一場華麗的變身。今天,就讓我們用氣炸鍋,為洋蔥花編織一場夢幻的外衣,開啓一場舌尖上的盛宴。 材料: • 大洋蔥:1個 • 冰冷的水。 …

不著意的生意

不著意的生意

因為自己年事已高,再無可能被科技大企所聘用,於是,在學習科技方面,是一路吸收一路尋求其在自身可實現的經濟價值,總算不賴,年來我能創造的收入,持續增加。 幸好我一向就是創業型先鋒,習慣單打獨鬥拼…

留言 (0)

還沒有留言,成為第一個留言的人吧!

發表留言

您必須登入才能留言。