Bagi sobat yang sudah terbiasa dengan WordPress (org/self hosted) tentunya sudah sangat akrab dengan Robots.txt. Dengan robots.txt kita dapat melakukan berbagai macam kostumisasi perintah untuk mengizinkan/tidak mengizinkan robot crawler search engine melakukan crawl terhadap direktori atau halaman tertentu. Robots.txt WordPress sebenarnya adalah virtual dan bukan file fisik sebenarnya, sehingga kostumisasi jadi lebih mudah. Tentunya ini menjadi keuntungan tersendiri buat SEO. Dan kini, Blogger telah memiliki fitur yang sama.
Sekitar lebih dari satu bulan yang lalu, Blogger memperkenalkan fitur search preferences, untuk mengatur berbagai setting optimasi SEO secara on page. Salah satu yang paling penting adalah pengaturan/kostumisasi robots.txt. Bukan berarti fitur lain dari search preferences tidak penting, namun semuanya sudah dicover dengan hack yang jauh-jauh hari sudah kita lakukan, yaitu dengan penggunaan meta tags, yang fungsinya sama dan sampai saat ini jauh lebih efektif.
Artikel ini terdiri dari dua bagian:
Artikel ini terdiri dari dua bagian:
- Pengenalan dan Fungsi Perintah Robots.txt, yang sedang sobat baca pada halaman ini, dan
- Case Study dan Penggunaan Robots.txt pada Blogger.
Introduction to Robots.txt Functions
Setelah hampir satu bulan mencoba, kini saatnya saya menyampaikan secuil presentasi mengenai fitur custom robots.txt Blogger ini.
Sebelumnya, jika masih ada dari sobat yang masih kurang familiar dengan robots.txt, akan saya berikan gambaran sedikit. Penggunaan robots.txt adalah untuk memberikan informasi pada robot crawler - baik milik search engine, aggregator, maupun robot-robot pengindeks yang lain - bahwa suatu website, direktori, atau file/halaman web tertentu TIDAK BOLEH diindeks. Sebagai contoh, sobat tidak ingin beberapa halaman blog (misal about, sitemap, label, dll) diindeks oleh search engine, maka sobat dapat menggunakan perintah \pada robots.txt agar beberapa halaman tersebut tidak diindeks. Maka sebenarnya penggunaan awal dari robots.txt adalah untuk melarang, DISALLOW, baru kemudian pada perkembangannya ada perintah mengijinkan, ALLOW.
Sebelum ada fitur robots.txt, kita menggunakan meta indeks untuk mengatur ini (noindex, nofollow). Namun setelah fitur custom robots.txt blogger diperkenalkan, kita dapat dengan mudah mengontrol pengindeks-an.
Robots.txt pada dasarnya berisi dua baris perintah, yang pertama adalah identitas user agent (crawler, robot perayap), dan kedua adalah perintah pelarangan.
user-agent: *
Disallow:
Perintah di atas diterjemahkan sebagai berikut: User Agent diisi dengan tanda bintang yang berarti mengacu kepada SEMUA crawler, baik milik search engine maupun yang lain, misalnya: feed agregator (bahkan robot autoblog!). Sedangkan Disallow tidak diisi/kosong berarti semua, baik root direktori, sub direktori, dan file, BOLEH diakses oleh crawler.
Jika ingin melarang crawler mengakses website, maka kita memberikan perintah dengan tanda / (slash), yang berarti robot crawler tidak boleh mengakses seluruh isi web/blog.
user-agent: *
Disallow: /
Namun jika ingin melarang indeks pada direktori atau halaman tertentu, kita tuliskan tanda / diikuti dengan nama direktorinya. Contoh misalnya sobat tidak ingin crawler mengindeks semua halaman statis maka penulisannya adalah:
user-agent: *
Disallow: /p (sesuai dengan nama direktori halaman statis Blogger)
Allow: /
Allow: / ditambahkan untuk mengizinkan crawler mengizinkan root directory, direktori lain, dan halaman lain diindeks. Arti dari perintah di atas adalah crawler boleh mengindeks semua kecuali halaman-halaman statis. Sebenarnya Allow: / tidak ditambahkan pun tidak masalah, namun untuk memastikan, Google kemudian memperkenalkan dan merekomendasikan perintah tersebut.
Jika ingin mengacu pada robot crawler milik SE tertentu yang tidak boleh mengindeks, sedangkan yang lain boleh, sobat harus menambahkan nama user-agentnya, pada baris lain. Contoh ini akan menggunakan Googlebot, milik Google.
user-agent: *
Disallow:
user-agent: GooglebotYup, tentunya sekarang sobat bisa dengan mudah mengartikan perintah robots.txt di atas.
Disallow: /p
Allow: /
Posting ini berlanjut ke bagian ke dua yaitu Case Study (Studi Kasus) Robots.txt dan Penggunaannya Pada Blogger. So, go on to part 2. :)