如何使用尖叫青蛙的SEO蜘蛛抓取大型網站並提取數據

尖叫的青蛙SEO蜘蛛

我們正在協助幾個客戶 Marketo遷移。 大型公司利用這樣的企業解決方案時,就像一個蜘蛛網,多年來將自己編織到流程和平台中……直到公司甚至沒有意識到每個接觸點為止。

借助Marketo這樣的企業營銷自動化平台,表單是整個站點和登錄頁面中數據的入口點。 公司在他們的站點中經常有成千上萬的頁面和數百種表單需要識別以進行更新。

一個很好的工具是 尖叫青蛙的SEO蜘蛛……也許是市場上最流行的平台,用於從站點進行爬網,審核和提取數據。 該平台功能豐富,幾乎可以為您所需的每項任務提供數百種選擇。

尖叫的青蛙SEO蜘蛛:爬行和提取

Screaming Frog SEO Spider的主要功能是您可以根據以下內容執行自定義提取 正則表達式, XPath, 或者 CSS路徑 細節。 這非常有用,因為我們希望抓取客戶的站點並進行審核,並從頁面中捕獲MunchkinID和FormId值。

用工具打開 配置>自定義>提取 以確定要提取的元素。

尖叫青蛙定制提取

提取屏幕幾乎可以無限制地收集數據:

尖叫青蛙SEO蜘蛛提取規則

正則表達式,XPath和CSSPath提取

對於MunchkinID,標識符位於頁面內的表單腳本中:

<script type='text/javascript' id='marketo-fat-js-extra'>
    /* <![CDATA[ */
    var marketoFat = {
        "id": "123-ABC-456",
        "prepopulate": "",
        "ajaxurl": "https:\/\/yoursite.com\/wp-admin\/admin-ajax.php",
        "popout": {
            "enabled": false
        }
    };
    /* ]]> */

然後,我們應用 正則表達式規則 從頁面中插入的腳本標籤內捕獲ID:

Regex: ["']id["']: *["'](.*?)["']

對於表單ID,數據位於Marketo表單的輸入標籤中:

<input type="hidden" name="formid" class="mktoField mktoFieldDescriptor" value="1234">

我們應用 XPath規則 以從頁面中插入的表單中捕獲ID。 XPath查詢會查找帶有輸入名稱為的表單 強大,然後提取將保存 :

XPath: //form/input[@name="formid"]/@value

尖叫青蛙SEO蜘蛛Javascript渲染

Screaming Frog的另一個不錯的選擇是您不僅限於頁面中的HTML,還可以呈現將要在網站中插入表單的任何JavaScript。 內 配置>蜘蛛,您可以轉到“渲染”標籤並啟用它。

尖叫青蛙SEO蜘蛛Javascript渲染

當然,這確實需要更長的時間來爬網該站點,但是您將獲得由JavaScript在客戶端呈現的表單以及在服務器端插入的表單。

儘管這是一個非常特定的應用程序,但是當您使用大型站點時,它是一個非常有用的應用程序。 您絕對要審核表單在整個網站中的嵌入位置。

下載尖叫青蛙SEO蜘蛛

你覺得呢?

本網站使用Akismet來減少垃圾郵件。 了解您的評論如何處理.