Apa itu Google Crawl?

Web Crawler atau Perayap Web adalah bot Internet yang sistematis menelusuri sebuah website, biasanya untuk tujuan pengindeksan Web.
Banyak nama lain dari Web Crawler yaitu: spider bot, agen web, worm. Ini mendukung mesin pencarian universal seperti (Google, Yahoo, MSN, Windows Live, Bing dll)
Contoh Crawler: Google bot, Scooter, Slurp, MSNbot, dll
Jenis Crawler

Universal crawler
crawler Preferential

crawler – Fokus
crawler – topical

Algoritma Dasar Crawler

Preferensial Crawler
Anggaplah kita bisa memperkirakan Pentingnya Mengukur I (p) untuk setiap halaman. dan ingin mengunjungi halaman dalam rangka penurunan Ip). Crawler preferensial dapat dibagi ke bagian: Crawler Fokus dan topikal Crawlers.

Crawler Terfokus

Daripada mengCrawl halaman dari seluruh web, kita mungkin ingin mengCrawl hanya halaman dalam kategori tertentu. Salah satu aplikasi dari Crawl preferensial seperti itu akan mempertahankan web taksonomi seperti Yahoo! Directory (dir.yahoo.com) atau relawan berbasis Open Directory Project (ODP, dmoz.org).
Sebuah Crawl terfokus berupaya untuk bias mengCrawl terhadap halaman dalam beberapa kategori di mana banyak pengguna yang tertarik pada halaman itu. Chakrabarti mengusulkan Crawl terfokus berdasarkan klasifikasi. Idenya adalah untuk pertama membangun classifier teks menggunakan label contoh halaman.
Maka classifier akan memandu Crawl dengan istimewa memilih dari perbatasan halaman-halaman yang muncul kemungkinan besar milik kategori yang menarik, menurut prediksi pengklasifikasi.
Crawler terfokus memiliki tiga komponen utama, Yaitu :

Classifier
Distiller
Crawler

Strategi Focused lunak: crawler menggunakan skor R (p) dari masing-masing mengCrawl halaman p sebagai nilai prioritas masing-masing Crawl halaman p sebagai nilai prioritas untuk semua URL yang dikunjungi diekstrak dari p. URL ditambahkan ke akhir.
Strategi Hard Focused: Untuk halaman Crawl p, classifier pertama menemukan kategori daun C (p) dalam taksonomi yang paling mungkin untuk memasukkan hal. Dalam nenek moyang c (p) adalah kategori fokus, maka URL dari halaman Crawl p ditambahkan ke akhir jika mereka dihapus.

Topikal Crawler

Contoh halaman tidak tersedia dalam jumlah yang cukup untuk melatih crawler terfokus sebelum mengCrawl dimulai. Mereka tidak memiliki pengklasifikasi teks untuk memandu mengCrawl. Sebagai contoh: spider bot.
Namun, tidak seperti mesin pencari, aplikasi ini tidak memiliki indeks untuk mencari hasil. Sebaliknya web yang mengCrawl sepanjang waktu.
Keuntungan dari mengCrawl topikal adalah bahwa semua penemuan segar dengan definisi. Tidak ada hasil basi dikembalikan oleh crawler karena halaman yang dikunjungi pada saat permintaan. Jenis crawler cocok untuk aplikasi yang mencari sangat baru-baru ini diposting dokumen, yang mesin pencari mungkin belum dapat mengindex
Kekurangan Crawl topikal adalah lambat dibandingkan dengan mesin pencari tradisional. Peringkat Algoritma tidak dapat mengambil keuntungan dari tindakan prestise global, seperti PageRank.

Sumber : https://mediakreatif.co.id/apa-itu-google-crawl

Sunday, 21 December 2014

Apa itu Google Crawl?

Popular Posts

Demo Motivasi

Kumpulan Motivasi

About Us

Daftar Link

Tags