Cara Mesin Pencari Merayapi, Menganalisa, Mengindeks dan Merengking Situs

Dalam tulisan ini akan menunjukkan bagaimana cara kerja 404, rel=canonicals, noindex, nofollow, dan robots.txt. Tulisan ini merupakan dasar untuk mengerti semua istilah diatas bekerja untuk merayapi sebuah laman dan tautan.

Perayapan

Setiap situs akan dirayapi oleh sebuah program yang diberi nama Spider. Tiap kali dia mengunjungi sebuah situs, yang pertama kali dihampiri adalah file robots.txt. Jika robots.txt mengijinkan untuk merayapi, maka spider akan mengumpulkan informasi tentang semua halaman dan akan mengirimkan kembali ke sebuah basis data.

Sewaktu mengunjungi sebuah halaman atau blog, dia mengumpulkan seluruh informasi didapat ke dalam sebuah daftar kemana saja halaman tersebut dihubungkan. Jika dihubungkan dengan tautan internal, maka dia akan mengikutinya ke halaman berikut. Jika ditautkan ke situs lain, dia akan menyimpannya dan akan diperiksa lagi dimasa mendatang.

Memproses Tautan

Kemudian ketika grafik tautan telah diproses, mesin pencari memakai semua tautan dan menghubungkan mereka semua, memberikan nilai relatif kepada semua tautan itu. Nilainya bisa positif atau negatif.

Contoh, Ada sebuah halaman merupakan spam. Jika halaman spam tadi di tautkan ke halaman lainnya, maka halaman yang diberi tautan dari halaman spam tadi akan bernilai negatif.

Kesimpulannya, jika sebuah halaman mempunyai tautan dari halaman lain yang dianggap sebagai spam, maka halaman tersebut akan bernilai negatif. Begitu juga sebaliknya.

Memblok Halaman Dengan Robots.txt

Contoh kasus : Jika robots.txt pada sebuah situs melarang mesin pencari untuk mengakses sebuah halaman.
Ini berarti bahwa ketika mesin pencari merayapi halaman tersebut dan membuat daftar tautan, maka dia tidak akan mendapatkan data apapun dari halaman yang telah dilarang tadi.

Jika si Spider merayapi sebuah situs yang melarang mesin pencari mengakses sebuah halaman, dia masih bisa mengambil seluruh tautan yang mengarah ke halaman itu dan menghitungnya. Namun dia tidak bisa melihat kemana saja tautan yang terdapat dalam halaman tertaut, tetapi dia masih bisa menambahkan metrik nilai tautan terhadap halaman yang akan mempunyai pengaruh terhadap domain secara keseluruhan.

Menggunakan 404 atau 410 untuk Membuang Halaman

Diasumsikan bahwa daripada memblok halaman dengan robots.txt, maka robots.txt dibuang saja. Maka mesin pencari akan mencoba mengaksesnya, tetapi dia akan mendapati bahwa halaman tersebut sudah tidak ada lagi.

Ini artinya ketika sebuah grafik tautan diproses, tautan ke halaman tersebut sudah hilang. Ini akan disimpan untuk digunakan kembali jika halaman tersebut bisa dirayapi kembali. Artinya halaman utama yang dirayapi ditugaskan untuk mengindeksnya.

Cara Kerja Pengindeksan

Indeks menentukan kata dan elemen apa saja di sebuah halaman yang sesuai dengan kata dan elemen di basis data. Anggaplah kita melakukan pencarian untuk “blue widget”. Mesin pencari menggunakan basis data untuk menemukan halaman yang dihubungkan ke blue, widget dan blue widget. Jike mesin pencari mempertimbangkan widget dan cornflower menjadi sama, dia juga akan mengevaluasi halaman dengan kata-kata tersebut.

Mesin pencari menggunakan algoritmanya untuk menentukan halaman mana di dalam indeksnya yang terhubung, mengevaluasi tautan yang terhubung ke halaman dan ke domain, dan memproses puluhan metrik yang diketahui dan tidak diketahui untuk mendapatkan sebuah nilai. Jika situs di filter karena perilaku buruk seperti difilter oleh Panda atau penguin, hal itu juga diperhitungkan.Nilai keseluruhan ditentukan dimana hasil halaman akan muncul.

Ini lebih kompleks untuk memanipulasi nilai. Contoh, jika dua halaman sangat mirip, maka webmaster akan menentukan apakah akan menggunakan rel=canonical untuk memberi tanda ke mesin pencari dimana hanya satu halaman saja yang bernilai. Jika halaman widget cornflower di rel=canonical-kan ke halaman blue widget, tetapi halaman cornflower widget tidak mempunyai nilai tautan untuk blue widget. Mesin pencari akan lebih memilih menggunakan halaman cornflower widget. Jika canonical diterima, nilai kedua elemen pada halaman dan tautan akan dikombinasikan.

Menghapus Halaman dengan NoIndex

Noindex lebih pasti. Cara kerjanya sama dengan robots.txt kecuali tidak mencegah dari perayapan halaman, mesin pencari bisa mengaksesnya, tetapi dia akan mengusirnya. Mesin pencari masih bisa mengumpulkan tautan ke halaman ini untuk ditambahkan ke basis data (kecuali secara langsung di halaman tersebut terindikasi untuk tidak memfollownya, contoh : nofollow), dan masih bisa menetapkan nilai tautan yang menuju ke halaman ini.

Bagaimanapun juga, ini tidak akan mengkonsolidasikan nilai dengan halaman lainnya. Seluruh noindex meminta mesin pencari untuk tidak memberi nilai halaman ke indeksnya. Oleh karena itu, hanya ada satu cara untuk menghentikan arus tautan yaitu dengan status 404 atau 410. 410 lebih pasti daripada 404, tetapi yang pastinya keduanya akan menyebabkan halaman menjadi drop di mesin pencari.

Free Hit Counters
Web Site Hit Counters

Silakan sampaikan komentar Anda