Daftar 21 Crawler Bot dari Perusahaan AI

Perusahaan AI melatih model bahasa dari data yang dikumpulkan oleh crawler bot, baik dari pihak ketiga maupun yang dioperasikan sendiri.

Ada berbagai jenis crawler bot, yang kontroversial adalah crawler bot yang berasal dari perusahaan kecerdasan buatan (AI). Crawler ini diduga digunakan untuk mengambil konten website guna melatih model bahasa, memperbarui dataset, dan mendukung produk dan layanan AI seperti ChatGPT, Microsoft Copilot, Google AI Overview, dan lainnya.

Crawler bot ini dianggap kontroversial karena perusahaan AI yang mengoperasikan crawler tersebut mengumpulkan data dari website tanpa memberi timbal balik kepada pemiliknya. Hal ini berbeda dengan crawler search engine konvensional yang memberikan timbal balik berupa trafik.

Jika Anda tertarik mengetahui daftar crawler bot yang digunakan oleh perusahaan-perusahaan AI, berikut adalah daftar AI crawler bot yang telah saya kumpulkan.

Daftar AI Crawler Bot

Saya telah menghimpun informasi mengenai 21 bot dari beberapa perusahaan yang mengumpulkan data-data website, mengembangkan model bahasa dan layanan terkait AI. Keberadaan bot ini terkonfirmasi melalui dokumen teknis yang mendukungnya.

1. OpenAI

OpenAI adalah perusahaan riset AI di balik ChatGPT dan DALL-E. OpenAI mengoperasikan 3 bot, yaitu OAI-SearchBot, ChatGPT-User dan GPTBot. OAI-SearchBot digunakan untuk sitasi website saat pengguna menggunakan ChatGPT Search. ChatGPT-User bekerja berdasarkan prompt pengguna dan biasanya digunakan untuk merangkum konten dari suatu website. Sementara itu, GPTBot adalah web crawler yang digunakan OpenAI untuk mengunduh data yang digunakan untuk melatih model bahasa GPT.

Informasi User Agent:

Full user-agent string: OAI-SearchBot/1.0; +https://openai.com/searchbot
Full user-agent string: Mozilla/5.0 AppleWebKit/537.36 (KHTML, like Gecko); compatible; ChatGPT-User/1.0; +https://openai.com/bot
Full user-agent string: Mozilla/5.0 AppleWebKit/537.36 (KHTML, like Gecko); compatible; GPTBot/1.1; +https://openai.com/gptbot

Dokumentasi teknis:

2. Google

Google menggunakan crawler khusus yang diberi nama Google-Extended untuk kepentingan pengembangan AI generatif seperti Gemini dan Vertex AI.

Informasi User Agent:

User agent token: Google-Extended

Dokumentasi teknis:

3. Perplexity

Perplexity membangun mesin pencari dengan menyajikan hasil pencarian berupa ringkasan dari beberapa website. Perplexity mengoperasikan PerplexityBot untuk mendukung fungsi mesin pencarinya.

Informasi User Agent:

User agent token: PerplexityBot
Full user-agent string: Mozilla/5.0 AppleWebKit/537.36 (KHTML, like Gecko; compatible; PerplexityBot/1.0; +https://perplexity.ai/perplexitybot)

Dokumentasi teknis:

4. You.com

You.com mengembangkan mesin pencari berbasis chat yang mampu menyarikan jawaban dari berbagai website. Untuk mendukung operasional mesin pencarinya, You.com mengoperasikan YouBot.

Informasi User Agent:

User agent token: YouBot
Full user-agent string: Mozilla/5.0 (compatible; YouBot/1.0; +https://about.you.com/youbot/)

Dokumentasi teknis:

5. Common Crawl

Common Crawl adalah yayasan nirlaba yang mengoperasikan CCBot untuk melakukan crawling data web. Data yang diambil oleh CCBot disimpan dalam sebuah repository terbuka yang dapat diakses dan dianalisis oleh siapa pun.

Informasi User Agent:

User agent token: CCBot

Dokumentasi teknis:

6. Webz.io

Webz.io mengoperasikan 2 crawler bot, webzio dan webzio-extended. Keduanya punya fungsi yang berbeda, webzio digunakan untuk mengumpulkan data yang akan digunakan untuk mengembangkan internal search, sedangkan webzio-extended digunakan mengumpulkan data untuk pengembangan AI.

Webz.io juga mengoperasikan omgili bot untuk mengumpulkan data dari berbagai sumber, termasuk situs berita, forum, blog, dan ulasan dari berbagai marketplace online. Sebagian kecil dataset dari Webz.io dapat diakses secara gratis.

Informasi User Agent:

User agent token: webzio
User agent token: webzio-extended
User agent token: omgili

Dokumentasi teknis:

7. Meta

Meta mengoperasikan banyak bot untuk kepentingan operasional layanannya, salah satunya adalah Meta-ExternalAgent yang digunakan untuk menindeks konten web dan melatih model AI.

Informasi User Agent:

meta-externalagent/1.1 (+https://developers.facebook.com/docs/sharing/webmasters/crawler)
meta-externalagent/1.1

Dokumentasi teknis:

8. Amazon

Amazon mengoperasikan Amazonbot untuk membantu Alexa dalam menjawab pertanyaan dari pelanggan Amazon.

Informasi User Agent:

User agent token: Amazonbot
Full user-agent string: Mozilla/5.0 (Macintosh; Intel Mac OS X 10_10_1) AppleWebKit/600.2.5 (KHTML\\, like Gecko) Version/8.0.2 Safari/600.2.5 (Amazonbot/0.1; +https://developer.amazon.com/support/amazonbot)

Dokumentasi teknis:

9. Apple

Apple mengoperasikan Applebot untuk mendukung fungsi Siri dan Spotlight.

Informasi User Agent:

User agent token: Applebot
Full user-agent string: Mozilla/5.0 (Device; OS_version) AppleWebKit/WebKit_version (KHTML, like Gecko) Version/Safari_version Safari/WebKit_version (Applebot/Applebot_version)

Dokumentasi teknis:

10. Huawei

Huawei mengoperasikan PetalBot untuk mendukung Huawei Assistant dan layanan AI Search. Keduanya memanfaatkan data dari mesin pencari Petal.

Informasi User Agent:

User agent token: PetalBot
Full user-agent string: Mozilla/5.0 (compatible;PetalBot;+https://webmaster.petalsearch.com/site/petalbot)

Dokumentasi teknis:

11. Ai2

Ai2 adalah perusahan nirlaba yang mengoperasikan AI2Bot yang mengumpulkan laman web dari domain tertentu untuk mengembangkan model bahasa terbuka.

Informasi User Agent:

Mozilla/5.0 (compatible) AI2Bot (+https://www.allenai.org/crawler)

Dokumentasi teknis:

12. DuckDuckGo

DuckDuckGo adalah alternatif Google Search yang mengedepankan privasi. DuckDuckGo mengoperasikan DuckAssistBot untuk mendukung fitur DuckAssist. DuckAssistBot akan merangkum beberapa halaman web berdasarkan kueri pencarian Anda.

Informasi User Agent:

DuckAssistBot/1.2; (+http://duckduckgo.com/duckassistbot.html)

Dokumentasi teknis:

13. Kangaroo LLM

Kangaroo LLM adalah perusahaan pengembang model bahasa open source yang fokus pada konten bahasa Inggris Australia. Kangaroo LLM mengoperasikan Kangaroo Bot untuk mengumpulkan data untuk membangun VegeMighty Dataset.

Informasi User Agent:

User agent token: Kangaroo Bot

Dokumentasi teknis:

14. Anthropic

Antropic adalah perusahaan riset AI yang mengembangkan model bahasa bernama Claude. Antropic mengoperasikan ClaudeBot untuk mengumpulkan data guna melatih model bahasa yang mereka kembangkan.

Informasi User Agent:

User agent token: ClaudeBot

Dokumentasi Teknis:

Daftar AI Crawler Bot Lainnya

Saya menemukan 3 bot dari perusahaan AI yang mengembangkan model bahasa, namun sayangnya, saya tidak menemukan dokumen teknis yang mengonfirmasi keberadaan ketiga bot tersebut.

1. ByteDance

ByteDance kemungkinan mengoperasikan Bytespider untuk menyediakan data guna melatih model bahasa yang digunakan oleh Doubao, versi Tiongkok dari ChatGPT.

Informasi User Agent:

User agent token: Bytespider

2. Cohere

Cohere adalah perusahaan riset AI yang secara khusus melayani pelanggan enterprise. Mereka mengembangkan 2 model bahasa, yaitu Command dan Embed, yang banyak diadopsi oleh perusahaan untuk membangun produk berbasis AI yang dapat disesuaikan dengan kebutuhan bisnis. Cohere kemungkinan mengoperasikan cohere-ai bot.

Informasi User Agent:

User agent token: cohere-ai

3. Diffbot

Diffbot adalah perusahaan pengumpulan data yang menyajikan datanya dalam bentuk entitas seperti News & Articles, Organizations, Retail Products, Events dan Discussions. Diffbot diduga mengoperasikan bot dengan nama yang sama Diffbot, namun tidak ada dokumentasi teknis yang mengonfirmasi keberadaannya.

User agent token: Diffbot

Penutup

Ada banyak sekali crawler di internet, baik yang dibuat dengan niat baik maupun tidak. Daftar di atas hanya mencakup sebagian kecilnya, namun crawler-crawler tersebut telah mengonsumsi sebagian besar konten web.

Jika Anda tidak ingin konten-konten website Anda dicrawl untuk melatih model bahasa dan mengembangkan produk AI lainnya, Anda dapat memblokir crawler-crawler tersebut dengan menggunakan robots.txt atau Web Application Firewall (WAF).


Eksplorasi konten lain dari Gusti Yoshi

Berlangganan untuk dapatkan pos terbaru lewat email.

Tinggalkan Balasan

Eksplorasi konten lain dari Gusti Yoshi

Langganan sekarang agar bisa terus membaca dan mendapatkan akses ke semua arsip.

Lanjutkan membaca