Ada berbagai jenis crawler bot, yang kontroversial adalah crawler bot yang berasal dari perusahaan kecerdasan buatan (AI). Crawler ini diduga digunakan untuk mengambil konten website guna melatih model bahasa, memperbarui dataset, dan mendukung produk dan layanan AI seperti ChatGPT, Microsoft Copilot, Google Search Generative Experience, dan lainnya.
Crawler bot ini dianggap kontroversial karena perusahaan AI yang mengoperasikan crawler tersebut mengumpulkan data dari website tanpa memberi timbal balik kepada pemiliknya. Hal ini berbeda dengan crawler search engine konvensional yang memberikan timbal balik berupa trafik.
Jika Anda tertarik mengetahui daftar crawler bot yang digunakan oleh perusahaan-perusahaan AI, berikut adalah daftar AI crawler bot yang telah saya kumpulkan.
Daftar AI Crawler Bot
Saya telah menghimpun informasi mengenai 10 bot dari beberapa perusahaan yang mengumpulkan data-data website, mengembangkan model bahasa dan layanan terkait AI. Keberadaan bot ini terkonfirmasi melalui dokumen teknis yang mendukungnya.
1. OpenAI
OpenAI adalah perusahaan riset AI di balik ChatGPT dan DALL-E. OpenAI mengoperasikan 2 bot, yaitu GPTBot
dan ChatGPT-User
. GPTBot
adalah web crawler yang digunakan OpenAI untuk mengunduh data yang digunakan untuk melatih model bahasa GPT. Sementara itu, ChatGPT-User
bekerja berdasarkan prompt pengguna dan biasanya digunakan untuk merangkum konten dari suatu website.
Informasi User Agent:
User agent token: GPTBot
Full user-agent string: Mozilla/5.0 AppleWebKit/537.36 (KHTML, like Gecko; compatible; GPTBot/1.0; +https://openai.com/gptbot)
User agent token: ChatGPT-User
Full user-agent string: Mozilla/5.0 AppleWebKit/537.36 (KHTML, like Gecko); compatible; ChatGPT-User/1.0; +https://openai.com/bot
Dokumentasi teknis:
2. Google
Google menggunakan crawler khusus yang diberi nama Google-Extended
untuk kepentingan pengembangan AI generatif seperti Bard, Search Generative Experience, dan Vertex AI.
Informasi User Agent:
User agent token: Google-Extended
Dokumentasi teknis:
3. Perplexity
Perplexity membangun mesin pencari dengan menyajikan hasil pencarian berupa ringkasan dari beberapa website. Perplexity mengoperasikan PerplexityBot
untuk mendukung fungsi mesin pencarinya.
Informasi User Agent:
User agent token: PerplexityBot
Full user-agent string: Mozilla/5.0 AppleWebKit/537.36 (KHTML, like Gecko; compatible; PerplexityBot/1.0; +https://perplexity.ai/perplexitybot)
Dokumentasi teknis:
4. You.com
You.com mengembangkan mesin pencari berbasis chat yang mampu menyarikan jawaban dari berbagai website. Untuk mendukung operasional mesin pencarinya, You.com mengoperasikan YouBot
.
Informasi User Agent:
User agent token: YouBot
Full user-agent string: Mozilla/5.0 (compatible; YouBot/1.0; +https://about.you.com/youbot/)
Dokumentasi teknis:
5. Common Crawl
Common Crawl adalah yayasan nirlaba yang mengoperasikan CCBot
untuk melakukan crawling data web. Data yang diambil oleh CCBot
disimpan dalam sebuah repository terbuka yang dapat diakses dan dianalisis oleh siapa pun.
Informasi User Agent:
User agent token: CCBot
Dokumentasi teknis:
6. Webz.io
Webz.io adalah perusahaan yang mengoperasikan omgili
bot untuk mengumpulkan data dari berbagai sumber, termasuk situs berita, forum, blog, dan ulasan dari berbagai marketplace online. Sebagian kecil dataset dari Webz.io dapat diakses secara gratis.
Informasi User Agent:
User agent token: omgili
Dokumentasi teknis:
7. Facebook
Facebook mengoperasikan FacebookBot
untuk meningkatkan model bahasa yang digunakan dalam teknologi pengenalan suara.
Informasi User Agent:
User agent token: FacebookBot
Full user-agent string: Mozilla/5.0 (compatible; FacebookBot/1.0; +https://developers.facebook.com/docs/sharing/webmasters/facebookbot/)
Dokumentasi teknis:
8. Amazon
Amazon mengoperasikan Amazonbot
untuk membantu Alexa dalam menjawab pertanyaan dari pelanggan Amazon.
Informasi User Agent:
User agent token: Amazonbot
Full user-agent string: Mozilla/5.0 (Macintosh; Intel Mac OS X 10_10_1) AppleWebKit/600.2.5 (KHTML\\, like Gecko) Version/8.0.2 Safari/600.2.5 (Amazonbot/0.1; +https://developer.amazon.com/support/amazonbot)
Dokumentasi teknis:
9. Apple
Apple mengoperasikan Applebot
untuk mendukung fungsi Siri dan Spotlight.
Informasi User Agent:
User agent token: Applebot
Full user-agent string: Mozilla/5.0 (Device; OS_version) AppleWebKit/WebKit_version (KHTML, like Gecko) Version/Safari_version Safari/WebKit_version (Applebot/Applebot_version)
Dokumentasi teknis:
10. Huawei
Huawei mengoperasikan PetalBot
untuk mendukung Huawei Assistant dan layanan AI Search. Keduanya memanfaatkan data dari mesin pencari Petal.
Informasi User Agent:
User agent token: PetalBot
Full user-agent string: Mozilla/5.0 (compatible;PetalBot;+https://webmaster.petalsearch.com/site/petalbot)
Dokumentasi teknis:
Daftar AI Crawler Bot Lainnya
Saya menemukan 3 bot dari perusahaan AI yang mengembangkan model bahasa, namun sayangnya, saya tidak menemukan dokumen teknis yang mengonfirmasi keberadaan ketiga bot tersebut.
1. Anthropic
Antropic adalah perusahaan riset AI yang mengembangkan model bahasa bernama Claude. Antropic kemungkinan mengoperasikan anthropic-ai
untuk menyediakan data guna melatih model bahasa yang mereka kembangkan.
Informasi User Agent:
User agent token: anthropic-ai
2. ByteDance
ByteDance kemungkinan mengoperasikan Bytespider
untuk menyediakan data guna melatih model bahasa yang digunakan oleh Doubao, versi Tiongkok dari ChatGPT.
Informasi User Agent:
User agent token: Bytespider
3. Cohere
Cohere adalah perusahaan riset AI yang secara khusus melayani pelanggan enterprise. Mereka mengembangkan 2 model bahasa, yaitu Command dan Embed, yang banyak diadopsi oleh perusahaan untuk membangun produk berbasis AI yang dapat disesuaikan dengan kebutuhan bisnis. Cohere kemungkinan mengoperasikan cohere-ai
bot.
Informasi User Agent:
User agent token: cohere-ai
Penutup
Ada banyak sekali crawler di internet, baik yang dibuat dengan niat baik maupun tidak. Daftar di atas hanya mencakup sebagian kecilnya, namun crawler-crawler tersebut telah mengonsumsi sebagian besar konten web.
Jika Anda tidak ingin konten-konten website Anda dicrawl untuk melatih model bahasa dan mengembangkan produk AI lainnya, Anda dapat memblokir crawler-crawler tersebut dengan menggunakan robots.txt atau Web Application Firewall (WAF).
Eksplorasi konten lain dari Gusti Yoshi
Berlangganan untuk dapatkan pos terbaru lewat email.