Web Crawler atau Perayap Web adalah bot Internet yang sistematis menelusuri sebuah website, biasanya untuk tujuan pengindeksan Web.
Banyak nama lain dari Web Crawler yaitu: spider bot, agen web, worm. Ini mendukung mesin pencarian universal seperti (Google, Yahoo, MSN, Windows Live, Bing dll)
Contoh Crawler: Google bot, Scooter, Slurp, MSNbot, dll
Jenis Crawler
- Universal crawler
- crawler Preferential
- crawler – Fokus
- crawler – topical
Preferensial Crawler
Anggaplah kita bisa memperkirakan Pentingnya Mengukur I (p) untuk setiap halaman. dan ingin mengunjungi halaman dalam rangka penurunan Ip). Crawler preferensial dapat dibagi ke bagian: Crawler Fokus dan topikal Crawlers.
- Crawler Terfokus
Sebuah Crawl terfokus berupaya untuk bias mengCrawl terhadap halaman dalam beberapa kategori di mana banyak pengguna yang tertarik pada halaman itu. Chakrabarti mengusulkan Crawl terfokus berdasarkan klasifikasi. Idenya adalah untuk pertama membangun classifier teks menggunakan label contoh halaman.
Maka classifier akan memandu Crawl dengan istimewa memilih dari perbatasan halaman-halaman yang muncul kemungkinan besar milik kategori yang menarik, menurut prediksi pengklasifikasi.
Crawler terfokus memiliki tiga komponen utama, Yaitu :
- Classifier
- Distiller
- Crawler
Strategi Hard Focused: Untuk halaman Crawl p, classifier pertama menemukan kategori daun C (p) dalam taksonomi yang paling mungkin untuk memasukkan hal. Dalam nenek moyang c (p) adalah kategori fokus, maka URL dari halaman Crawl p ditambahkan ke akhir jika mereka dihapus.
- Topikal Crawler
Namun, tidak seperti mesin pencari, aplikasi ini tidak memiliki indeks untuk mencari hasil. Sebaliknya web yang mengCrawl sepanjang waktu.
Keuntungan dari mengCrawl topikal adalah bahwa semua penemuan segar dengan definisi. Tidak ada hasil basi dikembalikan oleh crawler karena halaman yang dikunjungi pada saat permintaan. Jenis crawler cocok untuk aplikasi yang mencari sangat baru-baru ini diposting dokumen, yang mesin pencari mungkin belum dapat mengindex
Kekurangan Crawl topikal adalah lambat dibandingkan dengan mesin pencari tradisional. Peringkat Algoritma tidak dapat mengambil keuntungan dari tindakan prestise global, seperti PageRank.
Sumber : https://mediakreatif.co.id/apa-itu-google-crawl