robots.txt adalah teks yang berisi petunjuk bagi program komputer (bot) yang menjelaskan bagian mana dari suatu website yang diizinkan atau dilarang untuk di-crawl. robots.txt berfungsi melindungi website dari aktivitas crawling oleh bot yang tidak diinginkan, seperti crawler bot dari perusahaan AI.
Pemblokiran AI crawler bot dengan robots.txt banyak diterapkan website-website besar, baik di luar negeri, seperti The Verge, The New York Times, The Guardian maupun di Indonesia, seperti detikcom, Kompas.com, Kumparan, dan Liputan 6.
Jika Anda ingin mengikuti langkah mereka, berikut ini saya jelaskan caranya.
Cara Blokir AI Crawler Bot dengan robots.txt
Untuk memblokir AI crawler bot dengan robots.txt, caranya sangat mudah. Cukup tambahkan perintah berikut ke file robots.txt website Anda.
User-agent: Amazonbot
Disallow: /
User-agent: anthropic-ai
Disallow: /
User-agent: Applebot
Disallow: /
User-agent: Bytespider
Disallow: /
User-agent: CCBot
Disallow: /
User-agent: cohere-ai
Disallow: /
User-agent: FacebookBot
Disallow: /
User-agent: Google-Extended
Disallow: /
User-agent: GPTBot
Disallow: /
User-agent: omgili
Disallow: /
User-agent: PerplexityBot
Disallow: /
User-agent: PetalBot
Disallow: /
User-agent: YouBot
Disallow: /
AI crawler bot yang saya cantumkan di atas diketahui digunakan untuk mengumpulkan konten-konten website, melatih model bahasa, mengembangkan produk, dan meningkatkan layanan terkait AI lainnya.
Penutup
Sebagian besar crawler bot patuh terhadap aturan yang ditetapkan dalam robots.txt, yang berarti jika Anda memblokir crawler bot tersebut, mereka tidak akan crawling website Anda. Namun, perlu diingat bahwa tidak semua crawler bot mengindahkan aturan dalam robots.txt.
Untuk mengatasi crawler bot yang bandel, Anda dapat memblokir User-Agent atau alamat IP yang digunakan oleh crawler bot tersebut dengan Web Application Firewall (WAF).
Eksplorasi konten lain dari Gusti Yoshi
Berlangganan untuk dapatkan pos terbaru lewat email.