Muncul di halaman pertama search engine dengan topik yang sesuai dengan kata kunci adalah dambaan setiap pemilik web, tetapi hal ini tidak mudah sebab banyak hal yang harus dilakukan untuk bisa mengoptimalkan halaman sebuah web agar menjadi seperti apa yang diinginkan oleh search engine. Dalam artikel saya yang lalu sudah saya bahas mengenai cara mendaftar di Search engine dan cara membuat sitemap agar web mudah dibaca oleh search engine. Maka pada artike kali ini akan saya tulis sedikit mengenai cara membatasi search engine agar tidak sembarangan melakukan indeks sehingga ada batasan-batasan tertentu yang harus ditaati oleh spider = search engine crawler dalam menjalankan tugasnya untuk mengindeks suatu halaman web. Aturan tersebut ditulis dalam sebuah file yang dinamakan “robots.txt”.
Kebanyakan website atau blog mempunyai file dan folder yang tidak ada gunanya untuk diindek oleh mesin pencari seperti file gambar , file admin atau file yang anda anggap rahasia. Anda bisa membatasi spider untuk tidak mengindeks file tersebut dengan cara membuat sebuah file robots.txt. Untuk membuat file ini caranya sangat mudah anda hanya butuh notepad untuk menulis kode robots.txt. Contoh kodenya bisa dilihat seperti ini :
User-agent: *
Disallow: /images/
Disallow: /feed/
Arti kode itu adalah spider tidak boleh mengakses dan mengindeks isi dari direktori /images/ dan semua URL yang dimulai dengan /feed/.
Anda bisa copy paste kode dibawah ini untuk membuat file robots.txt
User-agent: Googlebot
Disallow: /log/*/trackback
Disallow: /log/*/feed
Disallow: /log/*/comments
Disallow: /log/*?*
Disallow: /log/*?
Disallow: /log/search
User-agent: *
Disallow: /cgi-bin/
Disallow: /log/wp-admin/
Disallow: /log/wp-includes/
Disallow: /log/wp-content/plugins/
Disallow: /log/wp-content/themes/
Disallow: /log/trackback
Disallow: /log/comments
Disallow: /log/feed
Atau anda bisa membuat robots.txt sesuai dengan keinginan anda menggunakan tool ini
Selanjutnya letakan file robots.txt di root directory web anda.
Penempatan lokasi dari Robot.txt harus ada didalam direktori utama = root directory karena disaat mesin pencari datang disitus anda, maka ia akan langsung menuju direktori utama contoh, http://webku.com/robots.txt dan jika search engine tidak menemukannya didalam root directory, maka mereka akan menyimpulkan bahwa situs anda tidak memiliki file robot.txt, kemudian search engine akan mengindex semua yang ia temukan selama meng-crawl situs anda dan jangan terkejut jika anda melihat seluruh isi situs dan file rahasia anda terindex dan ditampilkan pada search engine.
Apa yang saya tulis diatas adalah cara untuk membatasi spider search engine dan bukan sepenuhnya memproteksi file anda karena didalam dunia internet ada spider jahat dan spider baik sehingga sebaiknya anda tidak menaruh file rahasia anda di directory web anda. Spider baik akan segera mengerti begitu menemukan batasan yang tidak membolehkan dirinya untuk mengindeks tetapi bagi spider jahat maka batasan-batasan itu tidak ada artinya dan ini yang biasa dilakukan oleh para cyber crime.
Semoga artikel saya bermanfaat dan jika ada yang mau menambahkan silahkan kasih komentar.


November 1st, 2009 at 10:52 pm
mas, file robot.txt itu hidden ya ? saya cari di direktori root ga ada.
Salam Kreatif,
Octa Dwinanda
November 1st, 2009 at 10:55 pm
kelupaan….
terima kasih infornya mas
November 2nd, 2009 at 1:25 am
Octa, bukan file hidden. File robots.txt harus dibuat terlebih dahulu menggunakan notepad atau program sejenis kemudian disimpan dengan nama file “robots.txt” lalu file tersebut diupload ke root directory web anda. Ketika kita lihat melalui browser maka url-nya akan seperti ini http://www.namaweb.com/robots.txt.
Contohnya bisa anda lihat seperti ini : http://www.dolandolan.com/robots.txt
November 19th, 2009 at 2:02 pm
Mas gimana caranya biar cepet terindex..
site ini http://uswahtech.uswah.net lum ke index jiga
November 20th, 2009 at 9:43 am
uswahtech, sebetulnya dengan anda komentar disini web anda akan segera diindex google melalui link yang anda masukkan. Atau kalau anda penasaran caranya bisa anda baca DISINI
November 27th, 2009 at 2:47 pm
Ai udah coba semua tips, tapi kok web ai lum terindex juga ya ?
what hepened?
November 27th, 2009 at 3:37 pm
wptemplate, Crawl google memang butuh waktu untuk melakukan index, jika lebih dari 1 minggu belum terindex coba lakukan langkah berikut:
- rebuild sitemap anda kemudian submit ulang sitemap web anda di Google WebmasterTools.
- berikan link dari web yang sudah terindex ke web anda (lebih bagus link dari web yang sering update).
biasanya dengan cara tersebut berhasil. Selamat mencoba…!
December 7th, 2009 at 12:01 pm
mas, mau nanya..
kalo file spider.txt mau d taruh d blog paste kodenya di mana yah?
makasih yah mas, oh ya minta tolong review blog saya bisa gag mas… kalo ada yang kurang kasih saran pasti saya senang…
tukeran link yuk mas..
December 8th, 2009 at 4:30 am
article yang bagus, trima kasih atas bagi2 ilmunya…
December 8th, 2009 at 12:43 pm
socket 478, Jika yang anda maksud file spider.txt adalah file robots.txt maka penempatannya ada di root directori web hosting anda dan ini fungsinya hanya untuk memberi batasan spider search engine saja. Jika anda menggunakan blogspot atau layanan blog gratis lainnya saya rasa tidak perlu untuk membuat robots.txt sebab anda tidak punya hak akses untuk masuk ke root directori mereka.
Blog anda bagus, mungkin selanjutnya konsentrasi saja untuk meningkatkan visitor kali ya… Banyak belajar dan jangan mudah menyerah
December 16th, 2009 at 1:27 am
mantap gan.
klo ada yang butuh souvenir nikah. klik http://www.omahsouvenir.com
makasih gan
December 19th, 2009 at 2:09 am
Hmmm… masih bingung
BAru belajar sih.
Semangat terus bos!!!
December 29th, 2009 at 6:35 am
Terima kasih infonya… simple tapi bermanfaat, salam kenal…
December 29th, 2009 at 7:36 am
Ranger, salam kenal juga dan terimakasih telah mampir ke DolanDolan.com
January 18th, 2010 at 10:14 am
nice info…n sngt membantu..thnk
January 30th, 2010 at 1:09 pm
Ternyata apa yg saya cari baru dapat disini, saya berterima kasih sekali untuk info yg sangat berharga ini…
Thx 4all
February 23rd, 2010 at 2:48 pm
makasih mas infonya, mau coba buat dulu. tapi bagus lagi kalau yang di buat contoh robots.txt nya di jelasin artinya satu2 mas, jadi kalau mau nambahin atau buat sendiri jadi tambah ngerti..hehe
February 24th, 2010 at 2:02 pm
thaxz eah bos…infonya,,tp msh agak sdikit bingung nech….bbantuin dunk..!!
March 4th, 2010 at 5:04 pm
kalau untuk menghapus supaya robot text nya menjadi 0 bagaimana ya
March 7th, 2010 at 11:30 am
wiyono, saya kurang mengerti dengan maksud anda, kemudian apa fungsi robots.txt dijadikan 0 ? padahal kita buat robots.txt adalah untuk membatasi spider search engine.
March 8th, 2010 at 11:24 pm
mas kalo pake blogspot tu bagian root ada di mana? makasih… saya banyak belajar dari blog Anda
March 10th, 2010 at 8:48 am
Kiki Diamonds, kalau blogspot kita tidak diberi hak akses ke root directory
kecuali kalu kita hosting sendiri
April 9th, 2010 at 2:23 am
apakah “robots.txt” ini juga termasuk meningkatkan ceo???
5kaish
April 14th, 2010 at 1:34 pm
Amiq, setahu saya pengaruhnya tidak signifikan, sebetulnya robots.txt fungsinya untuk membatasi crawl search engine agar tidak mengindek semua file kita.
May 21st, 2010 at 1:40 pm
yah trnyata untuk bl0g gratisan gk bsa ya br0? tp mkasih bwt info-y , jadi awak gk hrus keliling2 bwt nyari temtang robots.txt
May 22nd, 2010 at 12:29 pm
mas, mau tanya nih.
dulu kalo aku ngetik sigit super, blogku lgsg muncul.tapi kalo sekarang malah nda muncul, yg muncul malah postingku.biar muncul lagi caranya gimana mas?
markasih
June 11th, 2010 at 9:25 am
mas
itu yang kolom yg nge-float dibawah warna oranye itu apa ya?
plugin ya mas ?
saya lihat kok keren
mau saya pake di website ku
kok blognya mas gag di dofollowin?
biar lebih banyak yang ngomentarin
June 11th, 2010 at 12:22 pm
archthasa, pakai plugin wibiya download di wibiya.com. Ok kedepannya nanti kita dofollow deh dan makasih atas sarannya.
June 11th, 2010 at 4:07 pm
sigit super, kemungkinan kemarin anda search melalui http://www.google.co.id ketika dengan kata kunci sigit super maka website anda langsung ditampilkan.
June 15th, 2010 at 5:06 am
thx y mas yuwono
July 20th, 2010 at 10:31 pm
boleh juga infonya
July 31st, 2010 at 10:54 pm
Aku udah cek http://normasari.web.id/robots.txt n keteranganya
User-agent: *
Disallow: /
trus aku cari di directory kok gak ada ya padahal udah aku search.
Mhon penjelasanya
August 6th, 2010 at 4:04 pm
rizal, file robots.txt ada di root directory website anda atau di public_html. Isi file robots.txt web anda hanya
User-agent: *
Disallow: /
sebaiknya ditambah kode yang lain supaya bisa crawler search engine bisa tahu mana yang boleh diindek dan yang tidak. Copy paste saja kode robots.txt yang saya tulis diatas ke robots.txt anda
August 16th, 2010 at 9:20 am
masalah saya sama dengan mas Rizal di atas, saya sudah cari di root atau di public_html pun tidak ada . .
tetapi kalau di cek lewat http://domainsaya.com/robots.txt, robot.txt saya ada walaupun hanya berisi hanya
User-agent: *
Disallow: /
menurut mas lebih baik saya buat robot.txt yang baru atau merubah robot.txt yg lama?
thanks sebelumnya dah banyak menjawab pertanyaan comment2 dari pembaca