Semalt Memberikan Tips Cara Menangani Bot, Laba-laba, dan Perayap

Selain membuat URL ramah mesin pencari , file .htaccess memungkinkan webmaster memblokir bot tertentu dari mengakses situs web mereka. Salah satu cara untuk memblokir robot ini adalah melalui file robots.txt. Namun, Ross Barber, Manajer Sukses Pelanggan Semalt , menyatakan bahwa ia telah melihat beberapa perayap mengabaikan permintaan ini. Salah satu cara terbaik adalah dengan menggunakan file .htaccess untuk menghentikan mereka mengindeks konten Anda.

Bot apa ini?

Mereka adalah jenis perangkat lunak yang digunakan oleh mesin pencari untuk menghapus konten baru dari internet untuk keperluan pengindeksan.

Mereka melakukan tugas-tugas berikut:

  • Kunjungi halaman web yang telah Anda tautkan
  • Periksa kode HTML Anda untuk kesalahan
  • Mereka menyimpan halaman web yang Anda tautkan dan melihat halaman web apa yang ditautkan ke konten Anda
  • Mereka mengindeks konten Anda

Namun, beberapa bot berbahaya dan mencari situs Anda untuk alamat dan formulir email yang biasanya digunakan untuk mengirimi Anda pesan atau spam yang tidak diinginkan. Orang lain bahkan mencari celah keamanan dalam kode Anda.

Apa yang dibutuhkan untuk memblokir perayap web?

Sebelum menggunakan file .htaccess, Anda perlu memeriksa hal-hal berikut:

1. Situs Anda harus berjalan di server Apache. Saat ini, bahkan perusahaan-perusahaan web hosting setengah layak dalam pekerjaan mereka, memberi Anda akses ke file yang diperlukan.

2. Anda harus memiliki akses ke Anda adalah log server mentah dari situs web Anda sehingga Anda dapat menemukan bot apa yang telah mengunjungi halaman web Anda.

Perhatikan bahwa tidak mungkin Anda dapat memblokir semua bot berbahaya kecuali jika Anda memblokir semuanya, bahkan yang menurut Anda sangat membantu. Bot baru muncul setiap hari, dan bot lama dimodifikasi. Cara paling efisien adalah mengamankan kode Anda dan mempersulit bot untuk mengirim spam kepada Anda.

Mengidentifikasi bot

Bot dapat diidentifikasi dengan alamat IP atau dari "String Agen Pengguna" mereka, yang mereka kirimkan dalam header HTTP. Misalnya, Google menggunakan "Googlebot."

Anda mungkin perlu daftar ini dengan 302 bot jika Anda sudah memiliki nama bot yang ingin Anda hindari menggunakan .htaccess

Cara lain adalah mengunduh semua file log dari server dan membukanya menggunakan editor teks. Lokasi mereka di server dapat berubah tergantung pada konfigurasi server Anda. Jika Anda tidak dapat menemukannya, cari bantuan dari host web Anda.

Jika Anda tahu halaman apa yang dikunjungi, atau waktu kunjungan, lebih mudah untuk datang dengan bot yang tidak diinginkan. Anda bisa mencari file log dengan parameter ini.

Sekali, Anda telah mencatat bot apa yang perlu Anda blokir; Anda kemudian dapat memasukkannya dalam file .htaccess. Harap dicatat bahwa memblokir bot tidak cukup untuk menghentikannya. Mungkin kembali dengan IP atau nama baru.

Cara memblokirnya

Unduh salinan file .htaccess. Buat cadangan jika diperlukan.

Metode 1: memblokir oleh IP

Cuplikan kode ini memblokir bot menggunakan alamat IP 197.0.0.1

Pesanan Ditolak, Bolehkan

Tolak dari 197.0.0.1

Baris pertama berarti bahwa server akan memblokir semua permintaan yang cocok dengan pola yang telah Anda tentukan dan mengizinkan semua permintaan lainnya.

Baris kedua memberitahu server untuk menerbitkan halaman 403: terlarang

Metode 2: Memblokir oleh agen Pengguna

Cara termudah adalah dengan menggunakan mesin penulisan ulang Apache

Tulis Ulang Hidup

RewriteCond% {HTTP_USER_AGENT} BotUserAgent

RewriteRule. - [F, L]

Baris pertama memastikan bahwa modul penulisan ulang diaktifkan. Baris dua adalah kondisi di mana aturan berlaku. "F" pada baris 4 memberi tahu server untuk mengembalikan 403: Dilarang sementara "L" berarti ini adalah aturan terakhir.

Anda kemudian akan mengunggah file .htaccess ke server Anda dan menimpa yang sudah ada. Seiring waktu, Anda perlu memperbarui IP bot. Jika Anda membuat kesalahan, cukup unggah cadangan yang Anda buat.

mass gmail