Ada berbagai jenis crawler bot, yang kontroversial adalah crawler bot yang berasal dari perusahaan kecerdasan buatan (AI). Crawler ini diduga digunakan untuk mengambil konten website guna melatih model bahasa, memperbarui dataset, dan mendukung produk dan layanan AI seperti ChatGPT, Microsoft Copilot, Google AI Overview, dan lainnya.
Crawler bot ini dianggap kontroversial karena perusahaan AI yang mengoperasikan crawler tersebut mengumpulkan data dari website tanpa memberi timbal balik kepada pemiliknya. Hal ini berbeda dengan crawler search engine konvensional yang memberikan timbal balik berupa trafik.
Jika Anda tertarik mengetahui daftar crawler bot yang digunakan oleh perusahaan-perusahaan AI, berikut adalah daftar AI crawler bot yang telah saya kumpulkan.
Daftar AI Crawler Bot
Saya telah menghimpun informasi mengenai 21 bot dari beberapa perusahaan yang mengumpulkan data-data website, mengembangkan model bahasa dan layanan terkait AI. Keberadaan bot ini terkonfirmasi melalui dokumen teknis yang mendukungnya.
1. OpenAI
OpenAI adalah perusahaan riset AI di balik ChatGPT dan DALL-E. OpenAI mengoperasikan 3 bot, yaitu OAI-SearchBot
, ChatGPT-User
dan GPTBot
. OAI-SearchBot
digunakan untuk sitasi website saat pengguna menggunakan ChatGPT Search. ChatGPT-User
bekerja berdasarkan prompt pengguna dan biasanya digunakan untuk merangkum konten dari suatu website. Sementara itu, GPTBot
adalah web crawler yang digunakan OpenAI untuk mengunduh data yang digunakan untuk melatih model bahasa GPT.
Informasi User Agent:
Full user-agent string: OAI-SearchBot/1.0; +https://openai.com/searchbot
Full user-agent string: Mozilla/5.0 AppleWebKit/537.36 (KHTML, like Gecko); compatible; ChatGPT-User/1.0; +https://openai.com/bot
Full user-agent string: Mozilla/5.0 AppleWebKit/537.36 (KHTML, like Gecko); compatible; GPTBot/1.1; +https://openai.com/gptbot
Dokumentasi teknis:
2. Google
Google menggunakan crawler khusus yang diberi nama Google-Extended
untuk kepentingan pengembangan AI generatif seperti Gemini dan Vertex AI.
Informasi User Agent:
User agent token: Google-Extended
Dokumentasi teknis:
3. Perplexity
Perplexity membangun mesin pencari dengan menyajikan hasil pencarian berupa ringkasan dari beberapa website. Perplexity mengoperasikan PerplexityBot
untuk mendukung fungsi mesin pencarinya.
Informasi User Agent:
User agent token: PerplexityBot
Full user-agent string: Mozilla/5.0 AppleWebKit/537.36 (KHTML, like Gecko; compatible; PerplexityBot/1.0; +https://perplexity.ai/perplexitybot)
Dokumentasi teknis:
4. You.com
You.com mengembangkan mesin pencari berbasis chat yang mampu menyarikan jawaban dari berbagai website. Untuk mendukung operasional mesin pencarinya, You.com mengoperasikan YouBot
.
Informasi User Agent:
User agent token: YouBot
Full user-agent string: Mozilla/5.0 (compatible; YouBot/1.0; +https://about.you.com/youbot/)
Dokumentasi teknis:
5. Common Crawl
Common Crawl adalah yayasan nirlaba yang mengoperasikan CCBot
untuk melakukan crawling data web. Data yang diambil oleh CCBot
disimpan dalam sebuah repository terbuka yang dapat diakses dan dianalisis oleh siapa pun.
Informasi User Agent:
User agent token: CCBot
Dokumentasi teknis:
6. Webz.io
Webz.io mengoperasikan 2 crawler bot, webzio
dan webzio-extended
. Keduanya punya fungsi yang berbeda, webzio
digunakan untuk mengumpulkan data yang akan digunakan untuk mengembangkan internal search, sedangkan webzio-extended
digunakan mengumpulkan data untuk pengembangan AI.
Webz.io juga mengoperasikan omgili
bot untuk mengumpulkan data dari berbagai sumber, termasuk situs berita, forum, blog, dan ulasan dari berbagai marketplace online. Sebagian kecil dataset dari Webz.io dapat diakses secara gratis.
Informasi User Agent:
User agent token: webzio
User agent token: webzio-extended
User agent token: omgili
Dokumentasi teknis:
- https://webz.io/bot.html
- https://webz.io/blog/web-data/what-is-the-omgili-bot-and-why-is-it-crawling-your-website/
7. Meta
Meta mengoperasikan banyak bot untuk kepentingan operasional layanannya, salah satunya adalah Meta-ExternalAgent
yang digunakan untuk menindeks konten web dan melatih model AI.
Informasi User Agent:
meta-externalagent/1.1 (+https://developers.facebook.com/docs/sharing/webmasters/crawler)
meta-externalagent/1.1
Dokumentasi teknis:
8. Amazon
Amazon mengoperasikan Amazonbot
untuk membantu Alexa dalam menjawab pertanyaan dari pelanggan Amazon.
Informasi User Agent:
User agent token: Amazonbot
Full user-agent string: Mozilla/5.0 (Macintosh; Intel Mac OS X 10_10_1) AppleWebKit/600.2.5 (KHTML\\, like Gecko) Version/8.0.2 Safari/600.2.5 (Amazonbot/0.1; +https://developer.amazon.com/support/amazonbot)
Dokumentasi teknis:
9. Apple
Apple mengoperasikan Applebot
untuk mendukung fungsi Siri dan Spotlight.
Informasi User Agent:
User agent token: Applebot
Full user-agent string: Mozilla/5.0 (Device; OS_version) AppleWebKit/WebKit_version (KHTML, like Gecko) Version/Safari_version Safari/WebKit_version (Applebot/Applebot_version)
Dokumentasi teknis:
10. Huawei
Huawei mengoperasikan PetalBot
untuk mendukung Huawei Assistant dan layanan AI Search. Keduanya memanfaatkan data dari mesin pencari Petal.
Informasi User Agent:
User agent token: PetalBot
Full user-agent string: Mozilla/5.0 (compatible;PetalBot;+https://webmaster.petalsearch.com/site/petalbot)
Dokumentasi teknis:
11. Ai2
Ai2 adalah perusahan nirlaba yang mengoperasikan AI2Bot yang mengumpulkan laman web dari domain tertentu untuk mengembangkan model bahasa terbuka.
Informasi User Agent:
Mozilla/5.0 (compatible) AI2Bot (+https://www.allenai.org/crawler)
Dokumentasi teknis:
12. DuckDuckGo
DuckDuckGo adalah alternatif Google Search yang mengedepankan privasi. DuckDuckGo mengoperasikan DuckAssistBot untuk mendukung fitur DuckAssist. DuckAssistBot akan merangkum beberapa halaman web berdasarkan kueri pencarian Anda.
Informasi User Agent:
DuckAssistBot/1.2; (+http://duckduckgo.com/duckassistbot.html)
Dokumentasi teknis:
13. Kangaroo LLM
Kangaroo LLM adalah perusahaan pengembang model bahasa open source yang fokus pada konten bahasa Inggris Australia. Kangaroo LLM mengoperasikan Kangaroo Bot untuk mengumpulkan data untuk membangun VegeMighty Dataset.
Informasi User Agent:
User agent token: Kangaroo Bot
Dokumentasi teknis:
14. Anthropic
Antropic adalah perusahaan riset AI yang mengembangkan model bahasa bernama Claude. Antropic mengoperasikan ClaudeBot
untuk mengumpulkan data guna melatih model bahasa yang mereka kembangkan.
Informasi User Agent:
User agent token: ClaudeBot
Dokumentasi Teknis:
Daftar AI Crawler Bot Lainnya
Saya menemukan 3 bot dari perusahaan AI yang mengembangkan model bahasa, namun sayangnya, saya tidak menemukan dokumen teknis yang mengonfirmasi keberadaan ketiga bot tersebut.
1. ByteDance
ByteDance kemungkinan mengoperasikan Bytespider
untuk menyediakan data guna melatih model bahasa yang digunakan oleh Doubao, versi Tiongkok dari ChatGPT.
Informasi User Agent:
User agent token: Bytespider
2. Cohere
Cohere adalah perusahaan riset AI yang secara khusus melayani pelanggan enterprise. Mereka mengembangkan 2 model bahasa, yaitu Command dan Embed, yang banyak diadopsi oleh perusahaan untuk membangun produk berbasis AI yang dapat disesuaikan dengan kebutuhan bisnis. Cohere kemungkinan mengoperasikan cohere-ai
bot.
Informasi User Agent:
User agent token: cohere-ai
3. Diffbot
Diffbot adalah perusahaan pengumpulan data yang menyajikan datanya dalam bentuk entitas seperti News & Articles, Organizations, Retail Products, Events dan Discussions. Diffbot diduga mengoperasikan bot dengan nama yang sama Diffbot
, namun tidak ada dokumentasi teknis yang mengonfirmasi keberadaannya.
User agent token: Diffbot
Penutup
Ada banyak sekali crawler di internet, baik yang dibuat dengan niat baik maupun tidak. Daftar di atas hanya mencakup sebagian kecilnya, namun crawler-crawler tersebut telah mengonsumsi sebagian besar konten web.
Jika Anda tidak ingin konten-konten website Anda dicrawl untuk melatih model bahasa dan mengembangkan produk AI lainnya, Anda dapat memblokir crawler-crawler tersebut dengan menggunakan robots.txt atau Web Application Firewall (WAF).
Eksplorasi konten lain dari Gusti Yoshi
Berlangganan untuk dapatkan pos terbaru lewat email.