• Kamis, 14 Februari 2013

      Soal UAS IR:- Agung

      1. Metode / Algoritma apa saja yang digunakan untuk melakukan IR? 2. Bagaimana perbedaan cara kerja Precision versus Recall, berikan contohnya. 3. Jelaskan Algoritma Web-Crawler yang sederhana, berikan contohnya. Jawaban: No. 1 . Metode / Algoritma apa saja yang digunakan untuk melakukan IR? Indexing Suatu bahasa indeks adalah bahasa yang digunakan untuk menguraikan dokumen dan permintaan. Unsur-Unsur dari bahasa indeks adalah terminologi indeks, yang mungkin diperoleh dari teks dokumen untuk diuraikan, atau mungkin dengan bebas. Bahasa indeks dapat diuraikan menjadi pre-coordinate atau post-coordinate, yang pertama menunjukkan bahwa terminologi dikoordinir ketika mengindeks dan ketika dalam pencarian. Secara lebih rinci, dalam indeks pre-coordinate suatu kombinasi logis tentang segala terminologi indeks mungkin digunakan sebagai suatu label untuk mengidentifikasi suatu kelas dokumen, sedangkan di dalam indeks post-coordinate kelas yang sama akan dikenali pada waktu pencarian dengan mengombinasikan kelas dokumen berlabel dengan terminologi indeks individu. Bahasa indeks yang muncul dari algoritma conflation dapat dijelaskan sebagai indeks dengan kosakata yang tak terkendalikan, post-coordinate dan merupakan turunan. Kosa kata terminologi indeks pada tahap evolusi kumpulan dokumen hanya merupakan satuan dari semua conflation kelas nama. Ada banyak kontroversi tentang macam bahasa index yang mana yang terbaik untuk pencarian kembali dokumen. Perdebatan utama adalah tentang apakah indeks otomatis sebaik atau lebih baik daripada indeks manual. Masing-masing bisa dilakukan pada berbagai tingkatan kompleksitas. Bagaimanapun, sepertinya terbukti dalam keduanya, indexing otomatis dan manual, menambahkan kompleksitas dalam wujud kendali yang lebih terperinci. Pesan adalah kosa kata tak terkendalikan berdasar pada bahasa alami untuk mencapai efektivitas pencarian kembali yang dapat diperbandingkan dengan kosa kata dengan kendali rumit. Pembangunan index dari koleksi dokumen merupakan tugas pokok pada tahapan preprocessing di dalam IR. Kualitas index mempengaruhi efektifitas dan efisiensi sistem IR. Index dokumen adalah himpunan term yang menunjukkan isi atau topik yang dikandung oleh dokumen. Index akan membedakan suatu dokumen dari dokumen lain yang berada di dalam koleksi. Ukuran index yang kecil dapat memberikan hasil buruk dan mungkin beberapa item yang relevan terabaikan. Index yang besar memungkinkan ditemukan banyak dokumen yang relevan tetapi sekaligus dapat menaikkan jumlah dokumen yang tidak relevan dan menurunkan kecepatan pencarian (searching) Pembuatan inverted index harus melibatkan konsep linguistic processing yang bertujuan mengekstrak term-term penting dari dokumen yang direpresentasikan sebagai bag-ofwords. Ekstraksi term biasanya melibatkan dua operasi utama berikut : 1. Penghapusan stop-words. Stop-word didefinisikan sebagai term yang tidak berhubungan (irrelevant) dengan subyek utama dari database meskipun kata tersebut sering kali hadir di dalam dokumen. Contoh stop words adalah a, an, the, this, that, these, those, her, his, its, my, our, their, your, all, few, many, several, some, every, for, and, nor, bit, or, yet, so, also, after, although, if, unless, because, on, beneath, over, of, during, beside, dan etc. Stop-words termasuk pula beberapa kata tertentu yang didefinisikan terkait dengan topik database, misal pada database yang menampung daftar karya tulis (paper) penelitian terkait dengan heart diseases, maka kata heart dan disease sebaiknya dihapus. 2. Stemming. Kata-kata yang muncul di dalam dokumen sering mempunyai banyak varian morfologik. Karena itu, setiap kata yang bukan stop-words direduksi kebentuk stemmed word (term) yang cocok. Kata tersebut distem untuk mendapatkan bentuk akarnya dengan menghilangkan awalan atau akhiran. Dengan cara ini, diperoleh kelompok kata yang mempunyai makna serupa tetapi berbeda wujud sintaktis satu dengan lainnya. Kelompok tersebut dapat direpresentasikan oleh satu kata tertentu. Sebagai contoh, kata disease, diseases, diseased dapat dikatakan serupa atau satu kelompok dan dapat diwakili oleh satu kata umum disease. Algoritma stemming paling umum yang diterapkan pada bahasa Inggris dan dinyatakan efektif adalah algoritma Porter. Algoritma ini terdiri dari lima fase reduksi kata yang diterapkan secara urut. Di dalam setiap fase terdapat berbagai konvensi untuk memilih aturan. Pada fase pertama, konvensi yang digunakan mengikuti aturan grup berikut: Rule Contoh SSES  SS caresses  caress IES  I ponies  poni SS  SS caress  caress S  cats  cat Banyak aturan berikutnya menggunakan konsep ukuran kata dengan memeriksa jumlah suku kata untuk mengetahui apakah suatu kata cukup panjang sehingga dapat diberlakukan aturan untuk menghilangkan akhirannya, bukan menghapus dari akar kata. Sebagai contoh, aturan: (m>1) EMENT  mengubah “replacement” menjadi “replac” tetapi tidak mengubah “cement” tidak menjadi “c”. Terdapat 5 langkah pembangunan inverted index, yaitu: 1. Penghapusan format dan markup dari dalam dokumen Tahap ini menghapus semua tag markup dan format khusus dari dokumen, terutama pada dokumen yang mempunyai banyak tag dan format seperti dokumen (X)HTML. Jika isi dokumen telah berada di dalam database maka tahapan ini sering dilewatkan. 2. Pemisahan rangkaian kata (tokenization) Tokenization adalah tugas memisahkan deretan kata di dalam kalimat, paragraf atau halaman menjadi token atau potongan kata tunggal atau termmed word. Tahapan ini juga menghilangkan karakter-karakter tertentu seperti tanda baca dan mengubah semua token ke bentuk huruf kecil (lower case). 3. Penyaringan (filtration) Pada tahapan ini ditentukan term mana yang akan digunakan untuk merepresentasikan dokumen sehingga dapat mendeskripsikan isi dokumen dan membedakan dokumen tersebut dari dokumen lain di dalam koleksi. Term yang sering dipakai tidak dapat digunakan untuk tujuan ini, setidaknya karena dua hal. Pertama, jumlah dokumen yang relevan terhadap suatu query kemungkinan besar merupakan bagian kecil dari koleksi. Term yang efektif dalam pemisahan dokumen yang relevan dari dokumen tidak relevan kemungkinan besar adalah term yang muncul pada sedikit dokumen. Ini berarti bahwa term dengan frekuensi kemunculan tinggi bersifat poor descriminator. Kedua, term yang muncul dalam banyak dokumen tidak mencerminkan definisi dari topik atau sub-topik dokumen. Karena itu, term yang sering digunakan dianggap sebagai stop-word dan dihapus. Penghapusan stop-word dari dalam suatu koleksi dokumen pada satu waktu membutuhkan banyak waktu. Solusinya adalah dengan menyusun suatu pustaka stop-word atau stop-list dari term yang akan dihapus. Strategi umum penentuan stop-list adalah mengurutkan term berdasarkan frekuensi koleksi (jumlah total kemunculan setiap term di dalam koleksi dokumen) dan memasukkan term yang paling sering muncul sebagai stop-word. 4. Konversi term ke bentuk akar (stemming) Stemming adalah proses konversi term ke bentuk umumnya, sebagaimana dijelaskan sebelumnya. Dokumen dapat pula diekspansi dengan mencarikan sinonim bagi term-term tertentu di dalamnya. Sinonim adalah kata-kata yang mempunyai pengertian serupa tetapi berbeda dari sudut pandang morfologis. Seperti stemming, operasi ini bertujuan menemukan suatu kelompok kata terkait. Akan tetapi sinonim bekerja berdasarkan pada thesaurus, tidak berbagi-pakai term stem. Jika pengguna memasukkan query “heart disease” maka query diekspansi untuk mengakomodasi semua sinonim dari disease seperti ailment, complication, condition, disorder, fever, ill, illness, infirmity, malady, sickness, dan lain-lain. 5. Pemberian bobot terhadap term (weighting). Setiap term diberikan bobot sesuai dengan skema pembobotan yang dipilih, apakah pembobotan lokal, global atau kombinasi keduanya. Banyak aplikasi menerapkan pembobotan kombinasi berupa perkalian bobot lokal term frequency dan global inverse document frequency, ditulis tf .idf. ilustrasi dari proses indexing sedangkan contoh struktur index: No. 2 Bagaimana perbedaan cara kerja Precision versus Recall, berikan contohnya? Sistem Temu-Balik Informasi (Information Retrieval) digunakan untuk menemukan kembali informasi-informasi yang relevan terhadap kebutuhan pengguna dari suatu kumpulan informasi secara otomatis. Salah satu aplikasi umum dari sistem temu kembali informasi adalah search-engine atau mesin pencarian yang terdapat pada jaringan internet. Pengguna dapat mencari halaman-halaman Web yang dibutuhkannya melalui mesin tersebut. Ukuran efektifitas pencarian ditentukan oleh precision dan recall. Precision adalah rasio jumlah dokumen relevan yang ditemukan dengan total jumlah dokumen yang ditemukan oleh search-engine. Precision mengindikasikan kualitas himpunan jawaban, tetapi tidak memandang total jumlah dokumen yang relevan dalam kumpulan dokumen. Recall adalah rasio jumlah dokumen relevan yang ditemukan kembali dengan total jumlah dokumen dalam kumpulan dokumen yang dianggap relevan. Dalam Information Retrieval, mendapatkan dokumen yang relevan tidaklah cukup. Tujuan yang harus dipenuhi adalah bagaimana mendapatkan doukmen relevan dan tidak mendapatkan dokumen yang tidak relevan. Tujuan lainnya adalah bagaimana menyusun dokumen yang telah didapatkan tersebut ditampilkan terurut dari dokumen yang memiliki tingkat relevansi lebih tingi ke tingkat relevansi rendah. Penyusunan dokumen terurut tersebut disebut sebagai perangkingan dokumen. Model Ruang Vektor dan Model Probabilistik adalah 2 model pendekatan untuk melakukan hal tersebut. Model ruang vektor dan model probabilistik adalah model yang menggunakan pembobotan kata dan perangkingan dokumen. Hasil retrieval yang didapat dari model-model ini adalah dokumen terangking yang dianggap paling relevan terhadap query. Dalam model ruang vektor, dokumen dan query direpresentasikan sebagai vektor dalam dalam ruang vektor yang disusun dalam indeks term, kemudian dimodelkan dengan persamaan geometri. Sedangkan model probabilistik membuat asumsi-asumsi distribusi term dalam dokumen relevan dan tidak relevan dalam orde estimasi kemungkinan relevansi suatu dokumen terhadap suatu query. No. 3 Jelaskan Algoritma Web-Crawler yang sederhana, berikan contohnya? Crawler adalah program terotomasi yang memproses link-link yang ditemukan dalam halaman-halaman web, yang kemudian menunjuk spider untuk mengunjungi situs-situs tertentu yang baru ditemukan. Algoritma MetaCrawler/MetaSearch Merupakan perantara dari mesin pencari yang sebenarnya. Mesin ini hanya akan mengirimkan permintaan pencarian ke berbagai mesin pencari serta menampilkan hasilnya satu di layer browser sehingga akan menampilkan banyak sekali hasil dari ber bagai mesin pencari yang ada. Sebuah web crawler khas dimulai dengan parsing halaman web tertentu: mencatat setiap link hypertext pada halaman yang mengarah ke halaman web lain. Crawler kemudian mem-parsing halaman tersebut untuk link baru, dan sebagainya, rekursif. Crawler adalah sebuah software atau script atau program otomatis yang berada pada satu mesin. Crawler hanya mengirim permintaan HTTP untuk dokumen ke mesin lain di Internet, seperti browser web ketika pengguna melakukan klik pada link. Semua crawler benar-benar adalah untuk mengotomatisasi proses link berikut. Ini adalah konsep dasar di balik pelaksanaan crawler web, tetapi menerapkan konsep ini bukan hanya sekelompok pemrograman. Bagian selanjutnya menjelaskan kesulitan yang terlibat dalam menerapkan crawler web yang efisien. Kesulitan dalam menerapkan crawler web yang efisien Ada dua karakteristik penting dari Web yang menghasilkan skenario di mana merangkak Web adalah sangat sulit: 1. Besar volume halaman Web. 2. Tingkat perubahan pada halaman web. Sebuah volume besar halaman web menyiratkan bahwa web crawler hanya dapat mendownload sebagian kecil dari halaman web dan karena itu sangat penting bahwa web crawler harus cukup cerdas untuk memprioritaskan download. Masalah lain dengan dunia today.s dinamis adalah bahwa halaman web pada perubahan internet sangat sering, sebagai akibatnya, pada saat crawler yang men-download halaman terakhir dari sebuah situs, halaman dapat mengubah atau halaman baru telah ditempatkan / diperbarui ke situs. Solusi - Kanan strategi Kesulitan dalam menerapkan web crawler efisien dengan jelas menyatakan bahwa bandwidth untuk melakukan merangkak bukanlah terbatas atau bebas. Jadi, hal ini menjadi penting untuk menjelajah web dalam tidak hanya dengan cara yang terukur, tapi efisien, jika beberapa jumlah yang wajar dari kualitas atau kesegaran halaman web yang akan dipertahankan. Ini terjadi kemudian bahwa crawler harus hati-hati memilih pada setiap langkah yang untuk mengunjungi halaman berikutnya. Dengan demikian pelaksana web crawler harus menentukan perilakunya. Mendefinisikan perilaku crawler Web adalah hasil dari kombinasi dari strategi yang disebutkan di bawah: • Memilih algoritma yang lebih baik untuk menentukan halaman untuk men-download. • Strategi bagaimana untuk mengunjungi kembali halaman untuk memeriksa pembaruan. • Strategi bagaimana untuk menghindari website overloading. Memilih algoritma yang tepat Mengingat ukuran saat web, adalah penting bahwa program crawler harus merangkak di sebagian kecil dari web. Bahkan mesin pencari besar di dunia today.s dinamis menjelajah sebagian kecil dari halaman web dari web. Tapi, crawler harus memperhatikan bahwa sebagian kecil dari halaman dijelajahi harus paling halaman yang relevan, dan bukan hanya halaman acak. Sementara memilih algoritma pencarian untuk web crawler pelaksana harus diingat bahwa algoritma harus memastikan bahwa halaman web yang dipilih tergantung pada kepentingan mereka. Pentingnya sebuah halaman web terletak pada popularitasnya dalam hal link atau kunjungan, atau bahkan URL-nya. Algoritma jenis Jalan-ascending merangkak Kami bermaksud crawler untuk men-download sumber sebanyak mungkin dari situs Web tertentu. Dengan cara crawler akan naik ke setiap jalan di setiap URL yang bermaksud merangkak. Sebagai contoh, ketika diberi URL benih http://foo.org/a/b/page.html, itu akan mencoba merangkak / a / b /, / a /, dan /. Keuntungan dengan Jalan-ascending crawler adalah bahwa mereka sangat efektif dalam menemukan sumber daya yang terisolasi, atau sumber daya yang tidak ada link inbound akan telah ditemukan dalam merangkak secara teratur. Terfokus merangkak Pentingnya halaman untuk crawler juga dapat dinyatakan sebagai fungsi dari kesamaan halaman untuk query tertentu. Dalam strategi ini kita bisa berniat crawler web untuk men-download halaman yang mirip satu sama lain, sehingga akan disebut crawler terfokus atau crawler topikal. Masalah utama dalam merangkak difokuskan adalah bahwa dalam konteks crawler Web, kami ingin untuk dapat memprediksi kesamaan teks dari halaman yang diberikan kepada query sebelum benar-benar men-download halaman. Sebuah prediksi yang mungkin adalah jangkar teks link, untuk menyelesaikan solusi masalah yang diusulkan akan menggunakan isi lengkap dari halaman yang telah dikunjungi untuk menyimpulkan kesamaan antara permintaan mengemudi dan halaman yang belum dikunjungi belum. Kinerja merangkak difokuskan sebagian besar tergantung pada kekayaan link dalam topik tertentu sedang dicari, dan merangkak terfokus biasanya bergantung pada mesin pencari web umum untuk memberikan titik awal. Cara Re-mengunjungi halaman web Metode optimal untuk mengunjungi kembali web dan menjaga kesegaran rata-rata tinggi dari halaman web adalah untuk mengabaikan halaman yang berubah terlalu sering. Pendekatan dapat: • Re-mengunjungi semua halaman dalam koleksi dengan frekuensi yang sama, terlepas dari tarif mereka perubahan. • Re-mengunjungi lebih sering halaman yang berubah lebih sering. (Dalam kedua kasus, urutan merangkak diulang halaman dapat dilakukan baik secara acak atau dengan urutan tetap.) The re-visiting metode dipertimbangkan di sini menganggap semua halaman yang homogen dalam hal kualitas ("semua halaman di Web yang bernilai sama"), sesuatu yang bukan merupakan skenario realistis. Bagaimana menghindari website overloading Crawler dapat mengambil data lebih cepat dan lebih mendalam daripada pencari manusia, sehingga mereka dapat memiliki dampak yang melumpuhkan pada kinerja sebuah situs. Tak perlu dikatakan jika crawler tunggal melakukan beberapa permintaan per detik file besar dan / atau men-download, server akan memiliki waktu keras menjaga dengan permintaan dari beberapa crawler. Penggunaan Web crawler berguna untuk sejumlah tugas, tapi datang dengan harga untuk masyarakat umum. Biaya menggunakan Web crawler termasuk: • Sumber daya jaringan, sebagai crawler membutuhkan bandwidth yang cukup besar dan beroperasi dengan tingkat tinggi paralelisme selama jangka waktu yang panjang. • Server overload, terutama jika frekuensi akses ke server yang diberikan terlalu tinggi. • Ditulis dengan buruk crawler, yang dapat menyebabkan crash server atau router, atau yang halaman download mereka tidak bisa menangani. • Crawler pribadi yang, jika digunakan oleh pengguna terlalu banyak, dapat mengganggu jaringan dan server Web. Untuk mengatasi masalah ini kita dapat menggunakan protokol pengecualian robot, juga dikenal sebagai protokol robots.txt. The pengecualian robot standar atau protokol robots.txt adalah konvensi untuk mencegah spider web bekerja sama dan robot web lain untuk mengakses semua atau bagian dari sebuah website. Kita dapat menentukan direktori tingkat atas situs web dalam file yang disebut robots.txt dan ini akan mencegah akses dari direktori tersebut ke crawler. Protokol ini menggunakan perbandingan substring sederhana untuk mencocokkan pola yang ditentukan dalam file robots.txt. Jadi, ketika menggunakan file robots.txt kita perlu memastikan bahwa kita menggunakan akhir. /. Karakter ditambahkan ke path direktori. Lain, file dengan nama dimulai dengan substring yang akan cocok daripada direktori. Contoh file robots.txt yang memberitahu semua crawler tidak masuk ke dalam empat direktori dari website: User-agent: * Larang: / cgi-bin / Larang: / images / Disallow: / tmp / Larang: / swasta /

      0 komentar:

      Posting Komentar

      Subscribe To RSS

      Sign up to receive latest news