Mengenal Robots.txt Untuk Blog

untitled

File robots.txt merupakan salah satu cara utama untuk menyampaikan kepada mesin pencari kemana dia boleh pergi atau tidak boleh di sebuah situs. Seluruh mesin pencari di dunia mendukung fungsi dasar yang ditawarkannya. Disamping itu ada pula beberapa aturan tambahan yang digunakan oleh beberapa mesin pencari. Dikarenakan Robots.txt ini sangat penting maka dirasa perlu saya menulis tentang seluruh fungsi robots.txt di dalam situs. Walaupun kelihatannya cukup sederhana, tetapi jika anda melakukan kesalahan di dalam file robots.txt ini, akibatnya bisa menjadi fatal. Untuk itu pastikan untuk membaca dan mengerti mengenai robots.txt.

Pengertian File Robots.txt

File robots.txt merupakan sebuah file berbentuk teks, diikuti oleh syntax. Dia akan dibaca oleh spider mesin pencari. Spider ini disebut juga dengan robots, sesuai dengan namanya. Syntaxnya sangat sederhana karena dia harus bisa dibaca secara keseluruhan. Tidak ada jeda diantara barisnya, seperti bilangan biner, 1 atau 0.

Robots.txt disebut juga dengan “Robots Exclusion Protocol”, merupakan sebuah hasil dari kesepakatan antara seluruh perusahaan atau developer mesin pencari. File ini memang tidak mempunyai standar resmi, tetapi hampir seluruh mesin pencari memanfaatkannya dan menjadikannya sebagai panduan sewaktu merayapi sebuah situs.

Tugas Robots.txt

File robots.txt merupakan salah satu penunjuk arah bagi spider untuk merayapi sebuah situs. Adapun tugas-tugas dari robots.txt dapat dikatakan sebagai berikut:

Penunjuk Perayapan

File robots.txt merupakan salah satu dari beberapa buah file yang berfungsi untuk menunjukkan ke arah mana sebuah mesin pencari harus merayapi sebuah situs. Dengan kata lain, dia akan mengikuti tautan dari situs A, ke situs B, situs C dan situs-situs lainnya yang saling terhubung. Sebelum si spider mesin pencari merayapi sebuah situs, dia akan membuka file robots.txt di domain tersebut. Disini, file robots.txt akan menunjukkan mesin pencari URL mana saja yang boleh dirayapi dan diindeks.

Mesin pencari akan menyimpan isi dari file robots.txt tersebut, tetapi biasanya akan memperbaruinya beberapa kali dalam sehari, dengan demikian apapun perubahan yang dilakukan oleh pemilik situs di file robots.txt akan segera diketahuinya.

Letak File Robots.txt

Biasanya, file robots.txt akan selalu berada di root sebuah domain. Sebagai contoh, jika domain anda bernama www.example.com, maka anda akan menemukan file robots.txt tersebut di http://www.example.com/robots.txt. Perlu diingat, domain anda pun bisa merespon seandainya cara penulisannya tanpa www. Untuk itu, perlu selalu berhati-hatilah dan pastikan bahwa file robots.txt tersebut tidak tertukar. Demikian juga kasusnya dengan tanpa menggunakan http dan https. Ketika sebuah mesin pencari ingin merayapi URL http://example.com/test, dia juga akan membaca http://example.com/robots.txt. Ketika dia ingin merayapi URL yang sama tetapi melalui https, dia akan membaca file robots.txt dari situs yang https juga, sehingga dia akan menuju https://example.com/robots.txt.

Satu lagi yang tidak kalah pentingnya adalah cara penulisannya, nama robots.txt tidak boleh tertukar karena jika tertukar dia tidak akan berguna sama sekali atau tidak akan dikenali oleh mesin pencari.

Kekurangan dan Kelebihan Menggunakan robots.txt

Kelebihan

Untuk Bujet Perayapan

Tiap situs mempunyai aturannya sendiri tentang berapa jumlah halaman yang boleh di rayapi oleh mesin pencari di dalam situs tersebut. Dengan memblok beberapa bagian situs dari spider mesin pencari, anda akan memperoleh bujet perayapan yang bisa digunakan untuk bagian lainnya. Terutama ketika situs itu harus bersih-bersih karena terdapat kesalahan SEO.

Memblok Parameter Kueri

Salah satu situasi sangat penting dalam menggunakan bujet perayapan adalah ketika situs anda harus menyaring dan menyortir parameter string kueri dalam jumlah banyak. Katakanlah anda mempunyai 10 buah parameter kueri berbeda dengan dengan nilai berbeda-beda pula serta kueri tersebut bisa pula dipasang-pasangkan. Dalam kondisi ini akan menghasilkan ratusan bahkan ribuan kemungkinan URL. Memblok seluruh parameter kueri dari perayapan mesin pencari akan membantu anda untuk memastikan bahwa mesin pencari hanya akan merayapi URL utama dan tidak akan pergi kemana-mana.

Untuk memblok seluruh URL bisa tambahkan pada file robots.txt:

Dissallow: /?

Kekurangan

Tidak bisa menghapus sebuah halaman dari hasil pencarian

Dengan menggunakan file robots.txt anda bisa mengatakan kepada spider kemana saja dia tidak boleh pergi di situs anda. Tetapi, anda tidak bisa mengatakan ke mesin pencari agar tidak menampilkan sebuah URL di hasil pencarian.

Dengan kata lain bahwa jika anda tidak mengijinkan mesin pencari merayapi sebuah URL atau membloknya, bukan berarti bahwa URL tadi tidak akan muncul di halaman pencarian. Jika mesin pencari menemukan banyak tautan mengarah ke URL tersebut, dia akan dapat menemukannya dan menampilkannya di mesin pencari walaupun dia tidak mengetahui apa isi dari URL tadi.

Jika anda ingin benar-benar menutup sebuah halaman agar tidak muncul di mesin pencari, anda harus menggunakan sebuah meta robots tag, yaitu noindex tag. Ini artinya bahwa mesin pencari tidak diperbolehkan untuk mengindeks halaman tadi. Oleh karena itu, robots.txt tidak boleh memblok mesin pencari sewaktu dia merayapi situs anda.

Tidak Membagi Nilai Tautan

Karena mesin pencari tidak bisa merayapi sebuah halaman, makanya halaman tersebut tidak bisa berbagi nilai tautan. Jika dia masih bisa merayapi, tetapi tidak mengindeks halaman tadi karena ada tag noindex, maka halaman itu masih memiliki nilai tautan antar link.

Syntax robots.txt

WordPress robots.txt

Sebuah file robots.txt terdiri dari satu atau lebih blok arahan, masing-masingnya dimulai dengan sebuah baris user-agent. User agent ini adalah nama bagi spider kemana dia akan diarahkan. Anda juga bisa menggunakan sebuah pemblokiran untuk seluruh mesin pencari dengan menggunakan sebuah wildcard bagi user agent, atau memblok bagian tertentu saja terhadap salah satu atau lebih mesin pencari. Sebuah spider mesin pencari akan selalu memilih untuk memblok bagian yang cocok dengan nama file yang akan diblok. Perintahnya di robots.txt akan seperti:

User-agent: *
Disallow: /

User-agent: Googlebot
Disallow:

User-agent: bingbot
Disallow: /not-for-bing/

Directive seperti Allow dan Disallow tidak case sensitive, oleh karenanya tidak akan ada pengaruh ketika anda menuliskannya dengan huruf besar atau huruf kecil semuanya. Tetapi untuk value berbeda, dia case sensitive, makanya /photo/ tidak akan sama dengan /Photo/.

User-agent directive

Pertama sekali yang diblok di robots.txt adalah user-agent. Sebuah user-agent akan mengenali spider secara spesifik. Bentuk user-agent dicocokkan dengan user-agent spider tertentu. Sebagai contoh, spider paling umum dari Google user-agentnya akan seperti:

Mozilla/5.0 (compatible; Googlebot/2.1;
+http://www.google.com/bot.html)

Yang lebih sederhana dari baris user-agent: Googlebot akan melakukan perintah ini jika anda ingin memberitahu ke spider apa yang harus dilakukan.

Perlu diingat bahwa kebanyakan mesin pencari mempunyai beberapa buah spider. Mereka akan menggunakan spider tertentu untuk mengindeks sebuah situs secara normal, untuk program periklanan, gambar, video dan sebagainya.

Mesin pencari akan selalu memilih direktif mana yang paling cocok yang bisa mereka temukan. Anggaplah anda memiliki 3 set direktif: satu untuk *, satu untuk Googlebot dan satu lagi untuk Googlebot-News. Jika sebuah bot merayapi sebuah situs dan user-agentnya adalah Googlebot-video, dia akan mengikuti larangan Gogolebot. Jika sebuah bot dengan user-agent Googlebot-News maka dia akan menggunakan direktif Googlebot-News secara lebih khusus.

User agent paling umum bagi spider mesin pencari

Di bawah ini merupakan daftar user-agent yang bisa anda gunakan di file robots.txt. User-agent ini merupakan paling sering digunakan oleh mesin pencari.

Search engine Field User-agent
Baidu General baiduspider
Baidu Images baiduspider-image
Baidu Mobile baiduspider-mobile
Baidu News baiduspider-news
Baidu Video baiduspider-video
Bing General bingbot
Bing General msnbot
Bing Images & Video msnbot-media
Bing Ads adidxbot
Google General Googlebot
Google Images Googlebot-Image
Google Mobile Googlebot-Mobile
Google News Googlebot-News
Google Video Googlebot-Video
Google AdSense Mediapartners-Google
Google AdWords AdsBot-Google
Yahoo! General slurp
Yandex General yandex

 

Direktif Disallow

Baris kedua untuk memblok direktif adalah baris disallow. Anda dapat menggunakan satu atau lebih pada baris ini, guna menentukan bagian mana dari situs tersebut supaya tidak diakses oleh spider mesin pencari. Jika baris Disallownya kosong, itu artinya tidak ada larangan bagi bot untuk merayapi situs, dengan kata lain anda mengizinkan spider untuk mengakses seluruh bagian dari situs.

User-agent: *
Disallow: /

Contoh di atas akan memblok seluruh mesin pencari agar tidak merayapi situs anda.

User-agent: *
Disallow:

Contoh di atas artinya anda membolehkan seluruh mesin pencari untuk merayapi seluruh isi situs.

User-agent: googlebot
Disallow: /Photo

Contoh di atas akan melarang Google untuk tidak merayapi direktori Photo di situs dan seluruh data yang terdapat di dalamnya. Ini artinya seluruh subdirektori dari direktori /Photo tidak bisa dirayapi, tetapi kalau ada direktori /photo (huruf p nya huruf kecil), maka dia bisa merayapi direktori tersebut beserta isi didalamnya. Ingat, baris ini case sensitive.

Cara Menggunakan Wildcards / Regular Expressions

Secara resmi, standar robots.txt tidak mendukung regular expression atau wildcards. Akan tetapi, seluruh mesin pencari mengerti terhadap wildcard dan regular expression. Ini artinya, anda bisa menambahkan baris seperti di bawah ini untuk memblok sekelompok file:

Disallow: /.php
Disallow: /copyrighted-images/
.jpg

Pada contoh di atas, lambang * artinya mencakup seluruh karakter. Perlu diingat bahwa seluruh baris ini masih case sensitive, sehingga baris kedua dari contoh di atas tidak akan memblok spider untuk merayapi file /copyrighted-images/example.JPG.

Beberapa mesin pencari seperti Google akan mengerti terhadap regular expressions yang lebih kompleks. Tetapi harus hati-hati bahwa tidak seluruh mesin pencari akan mengerti terhadap logika seperti ini. Fitur paling berguna sewaktu menambahkan regular expression adalah lambang $, yang mengindikasikan akhir dari sebuah URL. Sebagai contoh:

Disallow: /*.php$

Ini artinya /index.php tidak bisa diindeks, tetapi /index.php?p=1 masih bisa terindeks. Anda harus hati-hati menggunakannya karena bisa memblok bagian situs yang tidak ingin anda blok secara tidak sengaja.

Direktif Tambahan robots.txt

Selain direktif Disallow dan user-agent, ada beberapa direktif perayapan yang dapat anda gunakan. Direktif ini tidak didukung oleh seluruh mesin pencari, makanya harus hati-hati menggunakannya karena keterbatasannya.

Direktif allow

Meskipun tidak dalam bentuk spesifikasi aslinya, kebanyakan mesin pencari sepertinya mengerti akan direktif ini. Biasanya akan berbentuk:

Disallow: /wp-admin/
Allow: /wp-admin/admin-ajax.php

Direktif noindex

Direktif ini kurang dikenal dan jarang digunakan. Google sebenarnya mendukung direktif ini. Kurang terkenalnya direktif ini disebabkan karena Google tidak secara resmi menyatakan bahwa mesin pencarinya mendukung penggunaan direktif noindex.

Direktif host

Direktif ini hanya didukung oleh Yandex walaupun ada beberapa tulisan menyatakan bahwa Google pun menggunakannya. Dengan menggunakan direktif ini anda bisa memutuskan apakah anda ingin mesin pencari menampilkan example.com atau www.example.com. Barisnya seperti di bawah ini:

host: example.com

Dikarenakan hanya Yandex yang mendukung direktif host ini, sebaiknya tidak usah digunakan.

Direktif crawl-delay

Kegunaan dari direktif ini untuk menunda mesin pencari untuk merayapi sebuah situs. Direktif ini hanya didukung oleh Yahoo, Bing dan Yandex. Bentuk barisnya seperti:

crawl-delay: 10

Ini artinya spider akan menunda selama 10 detik sebelum mulai merayapi sebuah situs.

Direktif sitemap untuk XML Sitemaps

Dengan menggunakan direktif sitemap, artinya anda memberitahu mesin pencari, khususnya kepada Bing, Yandex dan Yahoo, dimana lokasi XML sitemap situs anda. Anda juga bisa mensubmit XML sitemap ke semua mesin pencari melalui webmaster tool.

Menvalidasi robots.txt

Untuk menvalidasi robots.txt, bisa menggunakan alat testing dari Google Search Console (dibawah menu perayapan). Tidak ada salahnya sebelum tampil, diperiksa terlebih dahulu, jangan-jangan ada kesalahan di robots.txt situs anda.

Silakan sampaikan komentar Anda