Daftar 13 Crawler Bot dari Perusahaan AI

Perusahaan AI melatih model bahasa dari data yang dikumpulkan oleh crawler bot, baik dari pihak ketiga maupun yang dioperasikan sendiri.

Ada berbagai jenis crawler bot, yang kontroversial adalah crawler bot yang berasal dari perusahaan kecerdasan buatan (AI). Crawler ini diduga digunakan untuk mengambil konten website guna melatih model bahasa, memperbarui dataset, dan mendukung produk dan layanan AI seperti ChatGPT, Microsoft Copilot, Google Search Generative Experience, dan lainnya.

Crawler bot ini dianggap kontroversial karena perusahaan AI yang mengoperasikan crawler tersebut mengumpulkan data dari website tanpa memberi timbal balik kepada pemiliknya. Hal ini berbeda dengan crawler search engine konvensional yang memberikan timbal balik berupa trafik.

Jika Anda tertarik mengetahui daftar crawler bot yang digunakan oleh perusahaan-perusahaan AI, berikut adalah daftar AI crawler bot yang telah saya kumpulkan.

Daftar AI Crawler Bot

Saya telah menghimpun informasi mengenai 10 bot dari beberapa perusahaan yang mengumpulkan data-data website, mengembangkan model bahasa dan layanan terkait AI. Keberadaan bot ini terkonfirmasi melalui dokumen teknis yang mendukungnya.

1. OpenAI

OpenAI adalah perusahaan riset AI di balik ChatGPT dan DALL-E. OpenAI mengoperasikan 2 bot, yaitu GPTBot dan ChatGPT-User. GPTBot adalah web crawler yang digunakan OpenAI untuk mengunduh data yang digunakan untuk melatih model bahasa GPT. Sementara itu, ChatGPT-User bekerja berdasarkan prompt pengguna dan biasanya digunakan untuk merangkum konten dari suatu website.

Informasi User Agent:

User agent token: GPTBot
Full user-agent string: Mozilla/5.0 AppleWebKit/537.36 (KHTML, like Gecko; compatible; GPTBot/1.0; +https://openai.com/gptbot)
User agent token: ChatGPT-User
Full user-agent string: Mozilla/5.0 AppleWebKit/537.36 (KHTML, like Gecko); compatible; ChatGPT-User/1.0; +https://openai.com/bot

Dokumentasi teknis:

2. Google

Google menggunakan crawler khusus yang diberi nama Google-Extended untuk kepentingan pengembangan AI generatif seperti Bard, Search Generative Experience, dan Vertex AI.

Informasi User Agent:

User agent token: Google-Extended

Dokumentasi teknis:

3. Perplexity

Perplexity membangun mesin pencari dengan menyajikan hasil pencarian berupa ringkasan dari beberapa website. Perplexity mengoperasikan PerplexityBot untuk mendukung fungsi mesin pencarinya.

Informasi User Agent:

User agent token: PerplexityBot
Full user-agent string: Mozilla/5.0 AppleWebKit/537.36 (KHTML, like Gecko; compatible; PerplexityBot/1.0; +https://perplexity.ai/perplexitybot)

Dokumentasi teknis:

4. You.com

You.com mengembangkan mesin pencari berbasis chat yang mampu menyarikan jawaban dari berbagai website. Untuk mendukung operasional mesin pencarinya, You.com mengoperasikan YouBot.

Informasi User Agent:

User agent token: YouBot
Full user-agent string: Mozilla/5.0 (compatible; YouBot/1.0; +https://about.you.com/youbot/)

Dokumentasi teknis:

5. Common Crawl

Common Crawl adalah yayasan nirlaba yang mengoperasikan CCBot untuk melakukan crawling data web. Data yang diambil oleh CCBot disimpan dalam sebuah repository terbuka yang dapat diakses dan dianalisis oleh siapa pun.

Informasi User Agent:

User agent token: CCBot

Dokumentasi teknis:

6. Webz.io

Webz.io adalah perusahaan yang mengoperasikan omgili bot untuk mengumpulkan data dari berbagai sumber, termasuk situs berita, forum, blog, dan ulasan dari berbagai marketplace online. Sebagian kecil dataset dari Webz.io dapat diakses secara gratis.

Informasi User Agent:

User agent token: omgili

Dokumentasi teknis:

7. Facebook

Facebook mengoperasikan FacebookBot untuk meningkatkan model bahasa yang digunakan dalam teknologi pengenalan suara.

Informasi User Agent:

User agent token: FacebookBot
Full user-agent string: Mozilla/5.0 (compatible; FacebookBot/1.0; +https://developers.facebook.com/docs/sharing/webmasters/facebookbot/)

Dokumentasi teknis:

8. Amazon

Amazon mengoperasikan Amazonbot untuk membantu Alexa dalam menjawab pertanyaan dari pelanggan Amazon.

Informasi User Agent:

User agent token: Amazonbot
Full user-agent string: Mozilla/5.0 (Macintosh; Intel Mac OS X 10_10_1) AppleWebKit/600.2.5 (KHTML\\, like Gecko) Version/8.0.2 Safari/600.2.5 (Amazonbot/0.1; +https://developer.amazon.com/support/amazonbot)

Dokumentasi teknis:

9. Apple

Apple mengoperasikan Applebot untuk mendukung fungsi Siri dan Spotlight.

Informasi User Agent:

User agent token: Applebot
Full user-agent string: Mozilla/5.0 (Device; OS_version) AppleWebKit/WebKit_version (KHTML, like Gecko) Version/Safari_version Safari/WebKit_version (Applebot/Applebot_version)

Dokumentasi teknis:

10. Huawei

Huawei mengoperasikan PetalBot untuk mendukung Huawei Assistant dan layanan AI Search. Keduanya memanfaatkan data dari mesin pencari Petal.

Informasi User Agent:

User agent token: PetalBot
Full user-agent string: Mozilla/5.0 (compatible;PetalBot;+https://webmaster.petalsearch.com/site/petalbot)

Dokumentasi teknis:

Daftar AI Crawler Bot Lainnya

Saya menemukan 3 bot dari perusahaan AI yang mengembangkan model bahasa, namun sayangnya, saya tidak menemukan dokumen teknis yang mengonfirmasi keberadaan ketiga bot tersebut.

1. Anthropic

Antropic adalah perusahaan riset AI yang mengembangkan model bahasa bernama Claude. Antropic kemungkinan mengoperasikan anthropic-ai untuk menyediakan data guna melatih model bahasa yang mereka kembangkan.

Informasi User Agent:

User agent token: anthropic-ai

2. ByteDance

ByteDance kemungkinan mengoperasikan Bytespider untuk menyediakan data guna melatih model bahasa yang digunakan oleh Doubao, versi Tiongkok dari ChatGPT.

Informasi User Agent:

User agent token: Bytespider

3. Cohere

Cohere adalah perusahaan riset AI yang secara khusus melayani pelanggan enterprise. Mereka mengembangkan 2 model bahasa, yaitu Command dan Embed, yang banyak diadopsi oleh perusahaan untuk membangun produk berbasis AI yang dapat disesuaikan dengan kebutuhan bisnis. Cohere kemungkinan mengoperasikan cohere-ai bot.

Informasi User Agent:

User agent token: cohere-ai

Penutup

Ada banyak sekali crawler di internet, baik yang dibuat dengan niat baik maupun tidak. Daftar di atas hanya mencakup sebagian kecilnya, namun crawler-crawler tersebut telah mengonsumsi sebagian besar konten web.

Jika Anda tidak ingin konten-konten website Anda dicrawl untuk melatih model bahasa dan mengembangkan produk AI lainnya, Anda dapat memblokir crawler-crawler tersebut dengan menggunakan robots.txt atau Web Application Firewall (WAF).

Tinggalkan Balasan