<tr id="x3pxr"></tr>

    1. <nav id="x3pxr"></nav>

      <table id="x3pxr"></table>

        <form id="x3pxr"></form>

        如何使用robots.txt阻止搜索引擎爬(抓取)你的網站?

        作者: 用戶投稿 閱讀:47 點贊:198

        如何使用robots.txt阻止搜索引擎爬(抓取)你的網站?

        為了你的網站可以被別人搜索到,搜索引擎爬蟲,有時也稱為搜索機器人(bots)或是搜索蜘蛛(spiders),會爬取你的網站,搜索有變動的內容并且重新更新搜索引擎的搜索檢索。

        如何用robts.txt 這個文檔去控制搜索蜘蛛

        網站站長可以使用robots.txt這個文檔,來指導搜索蜘蛛應該如何爬取這個網站,當搜索引擎爬取網站時,會先讀取robots.tx?文檔,并且依照規則爬取網站。

        ※ robots.txt 規則雖然是重要的,但是搜索機器人不一定會遵守 robot.txt 規則,它只是一個運行方針。

        ※?以Google而言,要設置Crawl-delay,是必須在Google管理工具里設置。

        ※?對于浮濫爬取你的網站的劣質搜索蜘蛛,應該研究如何憑借.htamless里的User-agent去阻擋不好的搜索蜘蛛。

        編輯與創建robots.txt 文檔

        Robots.txt 文檔是必須放在網站根目錄里,如果你的網址是example.com 是可以讀取到的。

        網址位置:

        http://example.com/robots.txt

        服務器位置:

        /home/userna5/public_html/robots.txt

        如果沒有這個文檔的話,你可以使用純文檔文檔創建一個新的robots.txt文檔。

        搜索引擎的用戶

        以搜索引擎蜘蛛的User-agent來說,使用robots.txt文檔來控制,是最普通的規范方式。

        當搜索蜘蛛爬取網站時,他們會以用戶User-agent來識別、以下提供些參考范例

        前三名美國最常發現的搜索引擎用戶:

        Googlebot

        Yahoo! Slurp

        bingbot

        最常被阻擋的搜索引擎用戶:

        AhrefsBot

        Baiduspider

        Ezooms

        MJ12bot

        YandexBot

        搜索引擎蜘蛛是會以robots.txt文檔規則來抓取網站

        robots.txt 文檔有許多的規則,可以控制搜索蜘蛛如何爬取你得網站。

        User-agent:可以具體指定哪一個User-agent是適用的,如*是萬用搭配于全部的User-agent。

        Disallow:設置文檔或是文檔夾,不允許被搜索蜘蛛爬取。

        設置全部搜索引擎延遲爬取

        如果你的網站有1000頁,搜索蜘蛛可能在幾分鐘內檢索全部的網站,然而這有可能導致系統資源使用過度,在短時間內讓全部的網頁非常過負荷,導致網頁無法瀏覽。

        延遲30秒的時間,將允許搜索蜘蛛在8.3小時內檢索1000張網頁。

        延遲500秒的時間,將允許搜索蜘蛛在5.8天內檢索1000張網頁。

        你也可以設置Crawl-delay:所有的搜索蜘蛛立即搜索。

        User-agent: *

        Crawl-delay: 30

        允許搜索蜘蛛爬取全部網站

        在缺省空白情況下,搜索引擎蜘蛛還是會爬取你的網站,不過你還是可以指定它是允許的。

        User-agent: *

        Disallow:

        不允許搜索蜘蛛爬取全部網站

        User-agent: *

        Disallow: /

        不允許搜索蜘蛛爬取特定一個網站

        你可以運用這些規則,不允許特定的搜索引擎蜘蛛爬取你的網站。

        User-agent: Baiduspider

        Disallow: /

        不允許全部搜索蜘蛛爬取特定的文檔

        如果有些文檔如contactus.htm, index.htm, 或是store.htm我們不想要搜索蜘蛛爬取,我可以使用:

        User-agent: *

        Disallow: /contactus.htm

        Disallow: /index.htm

        Disallow: /store.htm

        除了指定的以外,不允許全部搜索蜘蛛爬取

        如果我們只想讓Googlebot爬取我們的/private/目錄,但是不允許其他搜索蜘蛛爬取,我們可以這樣使用:

        User-agent: *

        Disallow: /

        User-agent: Googlebot

        Disallow: /private/

        當Googlebot讀取我的robots.txt文檔時,會去理解文檔內容,不會禁止全部目錄的爬取。

        如果想只想要一網頁部被抓取檢索請參考(使用標簽來阻擋搜索蜘蛛檢索網頁)

        本站內容均為「碼迷SEO」網友免費分享整理,僅用于學習交流,如有疑問,請聯系我們48小時處理!!!!

        標簽: 網站 搜索引擎 搜索 使用

        • 評論列表 (0

        日本麻豆免费版