วิธีการรวบรวมข้อมูลไซต์ขนาดใหญ่และดึงข้อมูลโดยใช้ SEO Spider ของ Screaming Frog
ขณะนี้เรากำลังช่วยเหลือลูกค้าหลายรายในการโยกย้าย Marketo เนื่องจากบริษัทขนาดใหญ่ใช้โซลูชันระดับองค์กรในลักษณะนี้ มันก็เหมือนกับใยแมงมุมที่ถักทอตัวเองเป็นกระบวนการและแพลตฟอร์มเป็นเวลาหลายปี จนกระทั่งบริษัทต่างๆ ไม่ได้ตระหนักถึงทุกจุดติดต่อด้วยซ้ำ
ด้วยแพลตฟอร์มอัตโนมัติทางการตลาดขององค์กร เช่น Marketo แบบฟอร์มจึงเป็นจุดเริ่มต้นของข้อมูลทั่วทั้งไซต์และแลนดิ้งเพจ บริษัทต่างๆ มักจะมีหน้าเว็บหลายพันหน้าและแบบฟอร์มหลายร้อยรูปแบบทั่วทั้งไซต์ของตน ซึ่งจะต้องระบุเพื่ออัปเดต
เครื่องมือที่ยอดเยี่ยมสำหรับสิ่งนี้คือ กรี๊ดสไปเดอร์ SEO ของ Frog… อาจเป็นแพลตฟอร์มที่ได้รับความนิยมมากที่สุดในตลาด SEO สำหรับการรวบรวมข้อมูล ตรวจสอบ และดึงข้อมูลจากไซต์ แพลตฟอร์มที่มีฟีเจอร์หลากหลายมีตัวเลือกหลายร้อยตัวเลือกสำหรับงานแทบทุกงานที่คุณต้องการ คุณลักษณะนี้ขยายไปไกลกว่าการเพิ่มประสิทธิภาพสำหรับการค้นหา โดยมีคุณลักษณะที่มีประโยชน์อย่างเหลือเชื่ออย่างหนึ่งในการดึงข้อมูลจากไซต์ของคุณในขณะที่กำลังรวบรวมข้อมูล
Screaming Frog SEO Spider: รวบรวมข้อมูลและสารสกัด
คุณสมบัติที่สำคัญของ Screaming Frog SEO Spider คือคุณสามารถทำการแยกแบบกำหนดเองตามไฟล์ regex, XPath,หรือ ซีเอสเอสพาธ เฉพาะเจาะจง สิ่งนี้มีประโยชน์อย่างยิ่งเนื่องจากเราต้องการรวบรวมข้อมูลไซต์ของลูกค้าและตรวจสอบและบันทึกค่า MunchkinID และ FormId จากเพจ
ด้วยเครื่องมือเปิด การกำหนดค่า> กำหนดเอง> การแยก เพื่อระบุองค์ประกอบที่คุณต้องการแยก
หน้าจอการแยกช่วยให้สามารถรวบรวมข้อมูลได้ไม่ จำกัด :
Regex, XPath และ CSSPath Extraction
สำหรับ MunchkinID ตัวระบุจะอยู่ภายในสคริปต์ของแบบฟอร์มที่อยู่บนเพจ:
<script type='text/javascript' id='marketo-fat-js-extra'>
/* <![CDATA[ */
var marketoFat = {
"id": "123-ABC-456",
"prepopulate": "",
"ajaxurl": "https:\/\/yoursite.com\/wp-admin\/admin-ajax.php",
"popout": {
"enabled": false
}
};
/* ]]> */
จากนั้นเราใช้ a กฎ Regex ในการจับ id จากภายในแท็กสคริปต์ที่แทรกในหน้า:
Regex: ["']id["']: *["'](.*?)["']
สำหรับ Form ID ข้อมูลจะอยู่ในแท็กอินพุตภายในแบบฟอร์ม Marketo:
<input type="hidden" name="formid" class="mktoField mktoFieldDescriptor" value="1234">
เราใช้ กฎ XPath เพื่อบันทึกรหัสจากภายในแบบฟอร์มที่แทรกในหน้า แบบสอบถาม XPath ค้นหาแบบฟอร์มที่มีการป้อนข้อมูลที่มีชื่อเป็น น่าเกรงขามจากนั้นการแยกจะบันทึกไฟล์ ความคุ้มค่า:
XPath: //form/input[@name="formid"]/@value
แยกแท็กสไตล์อินไลน์
เรากำลังช่วยลูกค้าทำความสะอาดไซต์ที่พวกเขาใช้สไตล์อินไลน์บนปลั๊กอิน Elementor เพื่อปรับแต่งแทบทุกองค์ประกอบด้วยเพจ เพื่อระบุตำแหน่งที่ใช้สไตล์อินไลน์ เราได้คัดลอกไซต์ด้วยกฎ RegEx หลายข้อสำหรับการดึงข้อมูลแบบกำหนดเอง:
- ขยายสไตล์อินไลน์:
<span\s+(?:[^>]*?\s+)?style\s*=\s*"([^"]*)"
- รูปแบบอินไลน์แท็กสมอ:
<a\s+(?:[^>]*?\s+)?style\s*=\s*"([^"]*)"
- รูปแบบอินไลน์ของแท็ก Div:
<div\s+(?:[^>]*?\s+)?style\s*=\s*"([^"]*)"
- สไตล์อินไลน์ของแท็กหัวเรื่อง:
<h+(?:[^>]*?\s+)?style\s*=\s*"([^"]*)"
การยกเว้น
At Martech Zoneเราให้บริการเว็บไซต์ในหลายภาษาในโดเมนย่อยที่แตกต่างกัน ไม่จำเป็นต้องรวบรวมข้อมูลการแปลเหล่านี้เนื่องจากเนื้อหาและข้อมูลทั้งหมดอิงตามไซต์หลัก ด้วยเหตุนี้ เราจึงเปิดใช้งานการกำหนดค่ารายการแยกและเพิ่มกฎต่อไปนี้:
.*\.martech.zone
คุณยังสามารถใช้สิ่งนี้เพื่อข้ามการรวบรวมข้อมูลเส้นทางที่ไม่จำเป็น เช่น แท็ก โดยเพิ่ม:
martech.zone/tag/.*
นอกจากนี้เรายังไม่ต้องการรวบรวมข้อมูลหน้า AMP ซึ่งลงท้ายด้วย ?amp=1
ดังนั้นในการ
https?://[^\s]+?\?amp=1
แพลตฟอร์มยังมีวิธีการที่ดีในการทดสอบ URL ที่ ขัดต่อกฎเพื่อให้แน่ใจว่ากฎทำงานได้อย่างถูกต้องก่อนที่คุณจะรวบรวมข้อมูลไซต์ของคุณ
กรีดร้องกบ SEO Spider JavaScript เรนเดอร์
อีกตัวเลือกที่ยอดเยี่ยมของ Screaming Frog คือคุณไม่จำกัดเฉพาะ HTML ในหน้านี้ คุณสามารถแสดง JavaScript ที่จะแทรกแบบฟอร์มภายในไซต์ของคุณได้ ภายใน การกำหนดค่า> แมงมุมคุณสามารถไปที่แท็บการแสดงผลและเปิดใช้งาน
แน่นอนว่าจะใช้เวลาในการรวบรวมข้อมูลไซต์นานกว่าเล็กน้อย แต่คุณจะได้รับแบบฟอร์มที่แสดงผลจากฝั่งไคลเอ็นต์โดย JavaScript รวมถึงแบบฟอร์มที่แทรกฝั่งเซิร์ฟเวอร์
แม้ว่านี่จะเป็นแอปพลิเคชันที่เฉพาะเจาะจงมาก แต่ก็มีประโยชน์อย่างเหลือเชื่อเมื่อคุณทำงานกับไซต์ขนาดใหญ่ คุณจะต้องตรวจสอบว่าแบบฟอร์มของคุณถูกฝังไว้ที่ใดในไซต์
ดาวน์โหลด Screaming Frog SEO Spider
การเปิดเผยข้อมูล: Martech Zone กำลังใช้ลิงค์พันธมิตรในบทความนี้