อย่าให้ Search Engine มาใกล้ฉัน….. ด้วย robot.txt

เป็นธรรมดาอยู่เอง ที่คนทำเว็บอยากให้เว็บของตนมีชื่ออยู่ใน Search Engine และหากเราไม่กำหนดเก็บเกณฑ์ให้ Search Engine ในการเข้ามาเก็บหน้าเว็บเพจของเราผลที่อาจเกิดขึ้นคือ การที่ Search Engine เก็บหน้่าเว็บเพจหรือไฟล์ที่เราไม่ต้องการให้เก็บเช่น เราอาจมีไฟล์ หรือ โฟลเดอร์ส่วนตัว หรือส่วนที่กันไว้สำหรับสมาชิก เป็นต้น ดังนั้น จึงได้มีการกำหนดวิธีที่ป้องกันไม่ให้ Spider หรือ Bot เข้ามาเก็บหน้าเว็บเพจต้องห้ามของเรา ( Spider หรือ Bot เป็นโปรแกรมของ Search Engine ที่ทำตัวเป็นนักค้นหาและท่องเว็บจากนั้นจะทำการบอกให้ ระบบ Search Engine Database ว่าควรเก็บหน้าเว็บเพจนั้นไว้หรือไม่ )

ผมเคยเขียนเรื่อง robots.txt ไว้ใน www.seo.in.th คัดมาให้อ่านกันครับ

ไฟล์ robots.txt คืออะไร

robots.txt เป็นไฟล์ที่บอก Search engine ว่า

” ไม่ต้องมาเก็บเว็บไซต์ของฉัน หรือหน้าเว็บบางหน้า หรือไฟล์บางไฟล์ ในเว็บของฉันนะ ไป index หรือเก็บไว้ในสารระบบเว็บของเธอนะจ๊ะ “

โดยเราสามารถสร้างไฟล์นี้โดยใช้ text editor อย่างเช่น notepad, editor plus หรือจะใช้ Dreamweaver หรือ โปรแกรมสร้างเว็บแบบ WYSWYG แล้ว save as เป็น Text File ก็ได้

คำสั่งใน robots.txt เป็นดั่งนี้
—————————————————–
User-agent: * —> ใส่ชื่อ bot ที่ต้องการ เช่น User-agent: msnbot ก็บอก msn ว่าไม่ต้องมา index เว็บของฉัน แต่ใส่ถ้า * ก็หมายถึงทุก S/E ไม่ต้องมา index
Disallow: / —> บรรทัดนี้ ใส่ ชื่อ folder หรือ ชื่อ file หรือ File extension ที่ไม่ต้องการให้ถูกเก็บไป index
—————————————————–

คำสั่งต่างๆ สำหรับ robots.txt

  1. ถ้าไม่ต้องการให้ Search Engine ทุกยี่ห้อมาเก็บเว็บไซต์ทั้งเว็บไป index ใช้ข้อความข้างล่าง
    User-agent: *
    Disallow: /
  2. ถ้าต้องการให้ Search Engine เฉพาะบางยี่ห้อมาเก็บเว็บไซต์ไป index ใช้ข้อความข้างล่าง เช่น msn ,google
    User-agent: Googlebot
    User-agent: msnbot
    Disallow: [สังเกตุว่า ไม่มีเครื่องหมายใดหลัง disallow:]User-agent: *
    Disallow: /หมายเหตุ —> ในทางกลับกัน ถ้าไม่ต้องการให้ googlebot หรือ MSNbot ก็สลับบรรทัดกันระหว่างบรรทัด * กับ User-agent: Googlebot / User-agent: msnbot
  3. ถ้าในกรณีของ ไม่ต้องการให้เก็บ Folder / File หรือ บาง File Extension ก็
    User-agent: *
    Disallow: /folder
    Disallow: /file.extension อาทิ disallow:/indexhome.php ก็ไม่ต้องเก็บไฟล์ indexhome.php หรือ disallow:/indexhome.php?id ก็ไม่ต้องเก็บไฟล์ indexhome.php?[เป็น case ของ dynamic page]Disallow:/*.file extension$ อาทิ disallow:/*.jpg$ ก็ไม่ต้องเก็บไฟล์ ที่มีนามสกุล jpg$

———————————————————–
เหตุผลหลักๆที่ต้องใส่ robots.txt ก็เพราะต้องการป้องกันไม่ให้ robot ของ Search Engine มาเก็บข้อมูลที่เราไม่ต้องการให้แสดงใน S/E นั้น ๆอาจมีเหตุผลมาจากใน file/folder นั้น เป็น ความลับหรือ restriction zone/Log-in required zone เป็นต้น

ตำแหน่งที่วางrobots.txt ไว้ก็คือ root folder ของเรา ดูภาพตัวอย่างซึ่งเป็นไฟล์ robots.txt ของ Amazon.com

อย่างไรก็ดี หากเราไม่ต้องการให้ Search Engine เก็บหน้าเว็บเพจของเราเพียงหน้าสองหน้า หรือ เป็นไฟล์ที่เพิ่มภายหลังจากที่เรามีไฟล์ robots.txt แล้วและเราไม่อยากเปิด robots.txt ขึ้นมาแก้ไขก็สามารถกำหนด Code ดังนี้ ลงไปในหน้าเว็บใหม่นั้นได้เลยโดยระหว่าง TAG <head></head>

=================================================

<META NAME=”ชื่อ ROBOTS” CONTENT=”NOINDEX, NOFOLLOW”>

=================================================

เช่น

<html>
<head>
<title>หน้านี้ไม่ต้องเก็บ</title>
<META NAME=”Googlebot” CONTENT=”NOINDEX,NOFOLLOW”>
<META NAME=”MSNbot” CONTENT=”NOINDEX,NOFOLLOW”>
</head>

ที่นี้ ผู้อ่านคงมองภาพออกแล้วนะครับว่าเรา จะกำหนดไม่้ให้ Search Engine เข้ามายุ่มย่ามในเขตหวงห้ามของเราอย่างไร

โดย mr.diy-seo (29 ม.ค.2549)

******

เรื่องเก่าจากเว็บไซต์ของครูบอย – thinkandclick dot com (ย้อนดู ต้นฉบับ > https://web.archive.org/web/20111228020430/http://www.thinkandclick.com/seo-tips/robot_txt.php )

1 thoughts on “อย่าให้ Search Engine มาใกล้ฉัน….. ด้วย robot.txt

  1. Pingback: ข้อแนะนำสำหรับ webmaster โดย google ตอนที่ 1 - Digital Marketing Matters! by KruboyDigital Somkiat Lilitprapun

ลงความเห็น