Tugas Makalah Sistem Temu Kembali Informasi
MAKALAH
SISTEM TEMU KEMBALI INFORMASI
TOKENISASI, STOPWORD REMOVAL DAN STEMMING
Disusun oleh :
Eka Wahyu Nurjannah (17.01.63.0008)
Adham Hayukalbu (17.01.63.0005Niko Fitrianto (16.01.63.0028)
Dosen Pengampu :
Dr. Drs. Eri Zuliarso, M.Kom
FAKULTAS TEKNOLOGI INFORMASI
JURUSAN TEKNIK INFORMASI
UNIVERSITAS STIKUBANK SEMARANG
2017
KATA PENGANTAR
Puji syukur penulis panjatkan kepada Tuhan Yang Maha Esa karena atas rahmat-Nya penyusunan makalah ini dapat diselesaikan tepat waktu. Tidak lupa penulis juga mengucapkan terima kasih atas bantuan dari pihak yang telah berkontribusi dengan memberikan sumbangan baik materi maupun pikirannya.
Harapan penulis semoga makalah ini dapat menambah pengetahuan bagi para pembaca tentang tokenisasi, stopword removal dan stemming. Sehingga kedepannya dapat memperbaiki bentuk maupun menambah isi makalah agar menjadi lebih baik lagi.
Karena keterbatasan pengetahuan maupun pengalaman, penulis yakin masih banyak kekurangan dalam makalah ini. Oleh karena itu, penulis sangat mengharapkan saran dan kritik yang membangun dari pembaca demi kesempurnaan makalah ini.
Semarang, September 2017
Penulis
ABSTRAK
Sistem Temu Kembali Informasi (Information Retrieval System) digunakan untuk menemukan informasi yang relevan terhadap kebutuhan penggunanya. Jumlah dokumen dengan berbagai jenis file yang semakin banyak menjadikan proses dalam pencarian dokumen menjadi sulit dan memakan waktu lama. Maka dilakukan penerapan information retrieval system, yang diharapkan dapat menghasilkan pencariaan dokumen yang relevan dan akurat sesuai kategorinya.
Kata Kunci : tokenisasi, stopword removal, stemming
BAB I
PENDADULUAN
1.1. Latar Belakang
Sistem Temu Kembali Informasi (information retrieval system) digunakan untuk menemukan kembali informasi-informasi yang relevan terhadap kebutuhan pengguna dari suatu kumpulan informasi. Selain itu information retrieval juga bisa didefinisikan sebagai ilmu pencarian informasi pada dokumen, bisa berupa pencarian untuk dokumen itu sendiri, untuk menjelaskan dokumen, atau mencari di dalam database berupa teks, suara, gambar atau data.
Kebutuhan akan suatu informasi dari berbagai jenis file menuntut seseorang untuk menelusuri seluruh koleksi dokumen yang dimilikinya. Sehingga pengguna mengalami kesulitan untuk memperoleh informasi yang dibutuhkan, karena tidak dapat melihat isi dokumen satu persatu.
Oleh sebab itu, maka perlu adanya penerapan information retrieval system yang diharapkan dapat menghasilkan pencarian dokumen yang relevan dan akurat sesuai kategorinya. Sehingga menghemat waktu dan mempercepat kinerja dalam pencarian dokumen sesuai dengan kata kunci yang dimasukkan.
1.2. Rumusan Masalah
Berdasarkan latar belakang yang telah penulis uraikan di atas, maka rumusan masalah yang akan dibahas dalam makalah ini adalah:
- Apa yang dimaksud dengan sistem temu kembali atau information retrieval system ?
- Bagaimana jalannya proses sebuah sistem temu kembali atau information retrieval system ?
- Apa saja komponen sebuah sistem temu kembali atau information retrieval system ?
BAB II
LANDASAN TEORI
2.1. Sistem Temu Kembali Informasi
Sistem temu kembali informasi (information retrieval system) merupakan sistem yang dapat digunakan untuk menemukan informasi yang relevan dengan kebutuhan dari penggunanya secara otomatis dari suatu koleksi informasi (Mandala, 2002). Sistem temu kembali informasi pada dasarnya adalah suatu proses untuk mengidentifikasi, kemudian memanggil (retrieval) suatu dokumen dari suatu simpanan (file), sebagai jawaban atas permintaan informasi (Hasugian, 2003).
Query dalam information retrieval merupakan sebuah formula yang digunakan untuk mencari informasi yang dibutuhkan oleh pengguna, dalam bentuk yang paling sederhana. Sebuah query merupakan suatu keywords (kata kunci) dan dokumen yang mengandung keywords merupakan dokumen yang dicari dalam IRS.
Proses yang berlangsung dalam information retrieval system terdiri dari 2 bagian utama, yaitu indexing subsystem, dan searching subsystem (matching system). Proses indexing dilakukan untuk membentuk basis data terhadap koleksi dokumen yang dimasukkan, atau dengan kata lain, indexing merupakan proses persiapan yang dilakukan terhadap dokumen sehingga dokumen siap untuk diproses. Proses indexing sendiri meliputi 2 proses, yaitu document indexing dan term indexing. Dari term indexing akan dihasilkan koleksi kata yang akan digunakan untuk meningkatkan performansi pencarian pada tahap selanjutnya.
Adapun tahap-tahap yang terjadi pada proses indexing, yaitu (Harjanto, 2012):
- Tokenizing dokumen, yaitu proses mengubah dokumen menjadi kumpulan term dengan cara menghapus semua karakter tanda baca yang terdapat pada token. Hingga pada akhirnya yang diperoleh hanya kumpulan kata-kata dari suatu teks/dokumen.
- Stopword removal dokumen, yaitu kata-kata yang sering muncul dalam dokumen namun artinya tidak deskriptif dan tidak memiliki keterkaitan dengan tema tertentu. Pada Bahasa Indonesia, stopword disebut juga sebagai kata yang tidak penting, misalnya “di”, “oleh”, “pada”, “sebuah”, “karena” dan lain sebagainya.
- Stemming dokumen, yaitu tahap penghilangan imbuhan sehingga didapatkan kata dasar dari term-term dokumen inputan.
- Term Weighting, yaitu proses pembobotan pada setiap term (kata) yang ada didalam dokumen.
2.2. Tujuan Sistem Temu Kembali Informasi
Sistem Temu Kembali Informasi bertujuan untuk menjembatani kebutuhan informasi pengguna dengan sumber informasi yang tersedia dalam situasi seperti dikemukakan oleh Belkin (1980) sebagai berikut:
- Penulis mempresentasikan sekumpulan ide dalam sebuah dokumen menggunakan sekumpulan konsep.
- Terdapat beberapa pengguna yang memerlukan ide yang dikemukakan oleh penulis tersebut, tapi mereka tidak dapat mengidentifikasikan dan menemukannya dengan baik.
- Sistem temu kembali informasi bertujuan untuk mempertemukan ide yang dikemukakan oleh penulis dalam dokumen dengan kebutuhan informasi pengguna yang dinyatakan dalam bentuk pertanyaan (query).
2.3. Text Prepocessing
Text prepocessing dapat didefiniskan sebagai proses mempersiapkan teks dokumen atau data set mentah. Text prepocessing berfungsi untuk mengubah data teks yang tidak terstruktur menjadi data yang terstruktur. Secara umum proses yang dilakukan dalam tahapan prepocessing adalah sebagai berikut :
2.3.1. Case Folding
Case folding adalah proses penyamaan case dalam sebuah dokumen. hal ini dilakukan untuk mempermudah pencarian. Tidak semua dokumen teks konsisten dalam penggunaan huruf kapital. Sehingga peran case folding dibutuhkan dalam mengkonversi keseluruhan teks dalam dokumen menjadi suatu bentuk standar (dalam hal ini menjadi huruf kecil atau lowercase).
Penjelasan:
Ketika melakukan upload file pdf ke sistem maka keseluruhan isi teks akan menjadi huruf kecil dan tersimpan dalam tabel korpus.
$someWords = strtolower($getcontent); /*membuat lowercase*/
/* ini proses insert ke tabel korpus */
$dbhost = 'localhost';
$dbuser = 'root';
$dbpass = '';
$koneksi = mysqli_connect($dbhost, $dbuser, $dbpass,'stbi');
if(! $koneksi )
{
die('Gagal Koneksi: ' . mysqli_error($koneksi));
}
$sql = 'INSERT INTO korpus '.
'(namafile, pathfile, isi) '.
'VALUES ("'.$filename.'", "'.$file.'", "'.$someWords.'")';
$result = mysqli_query($koneksi, $sql);
Penjelasan:
Ketika melakukan upload file pdf ke sistem maka keseluruhan isi teks akan menjadi huruf kecil dan tersimpan dalam tabel korpus.
$someWords = strtolower($getcontent); /*membuat lowercase*/
/* ini proses insert ke tabel korpus */
$dbhost = 'localhost';
$dbuser = 'root';
$dbpass = '';
$koneksi = mysqli_connect($dbhost, $dbuser, $dbpass,'stbi');
if(! $koneksi )
{
die('Gagal Koneksi: ' . mysqli_error($koneksi));
}
$sql = 'INSERT INTO korpus '.
'(namafile, pathfile, isi) '.
'VALUES ("'.$filename.'", "'.$file.'", "'.$someWords.'")';
$result = mysqli_query($koneksi, $sql);
2.3.2. Stopword Removal
Stopword Removal merupakan proses penghilangan stopword. Stopword yaitu kata-kata yang sering muncul dalam dokumen namun artinya tidak deskriptif dan tidak memiliki keterkaitan dengan tema tertentu.
Contoh : “di”,”oleh”,”karena” dan lain-lain.
Proses ini dilakukan pada judul dokumen, abstrak dokumen dan masukan query secara terpisah. Proses ini lebih mudah dan lebih cepat diproses setelah kata diekstrak dari teks dokumennya. Kata yang diperoleh dari tahhap ini diperiksa dengan daftar stopword, apabila sebuah kata masuk di dalam daftar stopword maka kata tersebut tidak akan diproses lebih lanjut (Utomo, 2011).
Penjelasan :
Proses filter stopword menghilangkan kata hubung pada dokumen yang telah diupload terhadap term atau kata dengan membandingkan pada tabel tb_stoplist sebelum dilakukan proses stemming.
Penjelasan :
Proses filter stopword menghilangkan kata hubung pada dokumen yang telah diupload terhadap term atau kata dengan membandingkan pada tabel tb_stoplist sebelum dilakukan proses stemming.
2.3.3. Tokenisasi
Tokenisasi adalah proses pemotongan string input berdasarkan tiap kata yang menyusunnya. Pemecahan kalimat menjadi kata-kata tunggal dilakukan dengan men-scan kalimat dengan pemisah white space (spasi, tab, dan newline). Proses ini dilakukan pada judul dokumen, abstrak dokumen dan masukan query secara terpisah (Utomo, 2011).
Proses tokenisasi disebut juga sebagai parsing yaitu pengambilan kata-kata (term) dari kumpulan kalimat, paragraf, atau dokumen menjadi kumpulan term dengan cara menghapus karakter tanda baca yang terdapat pada dokumen dan mengubah kumpulan term menjadi huruf kecil.
Penjelasan :
Penyimpanan kata dari file yang telah diupload pada tabel tb_token setelah dilakukan proses pengambilan kata yang telah dibandingkan dengan tb_stoplist dan penghilangan spasi.
Penjelasan :
Penyimpanan kata dari file yang telah diupload pada tabel tb_token setelah dilakukan proses pengambilan kata yang telah dibandingkan dengan tb_stoplist dan penghilangan spasi.
Stemming merupakan suatu proses yang terdapat dalam sistem IR yang mentransformasikan kata-kata yang terdapat dalam suatu dokumen ke kata-kata akarnya dengan menggunakan aturan-aturan tertentu. Sebagai contoh, kata bersama, kebersamaan, menyamai, akan distem ke root wordnya yaitu “sama” (Septiawan, 2010). Adapun algoritma yang sering digunakan dalam stemming Bahasa Indonesia yaitu Algoritma Porter dan Algoritma Nazief & Adriani.
- Algoritma Porter
Implementasi dari Algoritma Porter yaitu dengan memodifikasi kata dari suatu kata berimbuhan dengan membuang imbuhan-imbuhan pada kata-kata dasar Bahasa Inggris karena dalam Bahasa Inggris tidak mengenal awalan. Algoritma porter yang dibuat oleh W.B Frakes memiliki tahapan-tahapan.
sebagai berikut (Agusta L,2009) :
- Hapus Particle,
- Hapus Possesive Pronoun.
- Hapus awalan pertama. Jika tidak ada lanjutkan ke langkah 4a, jika ada cari maka lanjutkan ke langkah 4b.
- a. Hapus awalan kedua, lanjutkan ke langkah 5a.
b. Hapus akhiran, jika tidak ditemukan maka kata tersebut diasumsikan sebagai root word. Jika ditemukan maka lanjutkan ke langkah 5b.
- a. Hapus akhiran. Kemudian kata akhir diasumsikan sebagai root word
b. Hapus awalan kedua. Kemudian kata akhir diasumsikan sebagai root
word
b. Algoritma Nazief & Adriani
Algoritma Nazief & Adriani memperhatikan kemungkinan adanya partikel-partikel yang mungkin mengikuti suatu kata berimbuhan. Sehingga kita dapat melihat pada rumus untuk algoritma ini yaitu adanya penempatan possesive pronoun dan juga partikel yang mungkin ada pada suatu kata berimbuhan (Agusta, 2009).
Adriani ini memiliki tahap-tahap sebagai berikut (Agusta, L.2009):
- Pertama cari kata yang akan diistem dalam kamus kata dasar. Jika ditemukan maka diasumsikan kata adalah root word. Maka algoritma berhenti.
- Inflection Suffixes (“-lah”, “-kah”, “-ku”, “-mu”, atau “-nya”) dibuang. Jika berupa particles (“-lah”, “-kah”, “-tah” atau “-pun”) maka langkah ini diulangi lagi untuk menghapus Possesive Pronouns (“-ku”, “-mu”, atau “-nya”),.
- Hapus Derivation Suffixes (“-i”, “-an” atau “-kan”). Jika kata ditemukan di kamus, maka algoritma berhenti. Jika tidak maka ke langkah 3a.
a) Jika “-an” telah dihapus dan huruf terakhir dari kata tersebut adalah “- k”, maka “-k” juga ikut dihapus. Jika kata tersebut ditemukan dalam kamus maka algoritma berhenti. Jika tidak ditemukan maka lakukan langkah 3b.
b) Akhiran yang dihapus (“-i”, “-an” atau “-kan”) dikembalikan,
lanjut ke langkah 4.
- Hilangkan derivation prefixes DP {“di-”,“ke-”,“se-”,“me-”,“be ”,“pe”, “te-”} dengan iterasi maksimum adalah 3 kali.
a) Langkah 4 berhenti jika:
1. Terjadi kombinasi awalan dan akhiran.
2. Awalan yang dideteksi saat ini sama dengan awalan yang dihilangkan sebelumnya.
3. Tiga awalan telah dihilangkan.
b) Identifikasikan tipe awalan dan hilangkan. Awalan ada tipe:
1. Standar: “di-”, “ke-”, “se-” yang dapat langsung dihilangkan dari kata.
2. Kompleks: “me-”, “be-”, “pe”, “te-” adalah tipe-tipe awalan yang dapat bermorfologi sesuai kata dasar yang mengikutinya.
c) Cari kata yang telah dihilangkan awalannya ini di dalam kamus. Apabila tidak ditemukan, maka langkah 4 diulangi kembali. Apabila ditemukan, maka keseluruhan proses dihentikan.
- Apabila setelah langkah 4 kata dasar masih belum ditemukan, maka proses Recoding dilakukan dengan menambahkan karakter recoding di awal kata yang dipenggal. karakter recoding adalah huruf kecil setelah tanda hubung (‘-’) Dan terkadang berada sebelum tanda kurung. Sebagai contoh, kata “menangkap” (aturan 15), setelah dipenggal menjadi “nangkap”. Karena tidak valid, maka recoding dilakukan dan menghasilkan kata “tangkap”.
- Jika semua langkah telah selesai tetapi tidak juga berhasil maka kata awal diasumsikan sebagai root word. Proses selesai.
Tipe awalan ditentukan melalui langkah-langkah berikut:
1. Jika awalannya adalah: “di-”, “ke-”, atau “se-” maka tipe awalannya secara berturut-turut adalah “di-”, “ke-”, atau “se-”.
2. Jika awalannya adalah “te-”, “me-”, “be-”, atau “pe-” maka dibutuhkan sebuah proses tambahan untuk menentukan tipe awalannya.
3. Jika dua karakter pertama bukan “di-”, “ke-”, “se-”, “te-”, “be-”, “me-”, atau “pe-” maka berhenti.
4. Jika tipe awalan adalah “none” maka berhenti. Jika tipe awalan adalah bukan “none” maka awalan dapat dilihat pada Tabel 3. Hapus awalan jika ditemukan.
2.3.4. Term Weighting
Pembobotan kemunculan kata dalam suatu dokumen digunakan untuk perhitungan tingkat kemiripan antar dokumen dengan query (Abror, 2011). Salah satu metode pembobotan yang sering digunakan adalah TF-IDF (Terms Frequency-Inverse Document Frequency (TF-IDF). Metode ini merupakan metode untuk menghitung nilai atau bobot suatu kata (term) pada dokumen. Oleh sebab itu, sebelum melalukan metode ini, proses stemming dan stopword removal harus dilakukan terlebih dahulu oleh sistem (Pradnyana, 2012). Pembobotan akan memperhitungkan faktor kebalikan frekuensi dokumen yang mengandung suatu kalimat (inverse document frequency) (Pradnyana, 2012).
Nilai IDF sebuah term (kata) dapat dihitung menggunakan persamaan berikut:
N adalah jumlah dokumen yang berisi term (t) dan n adalah jumlah kemunculan frekuensi term terhadap D.
Adapun algoritma yang digunakan untuk menghitung bobot (W) masing-masing dokumen terhadap kata kunci(query) yaitu:
Keterangan :
d=dokumen ke-d
t=term ke-t dari kata kunci
tf=term frekuensi/frekuensi kata
W=bobot dokumen ke-d terhadap term ke-t
Setelah bobot (W) masing-masing dokumen diketahui, maka dilakukan proses pengurutan dimana semakin besar nilai W, maka semakin besar pula tingkat kesamaan dokumen tersebut terhadap kata yang dicari, demikian pula sebaliknya.
Proses untuk menemukan kata dasar dari sebuah kata. Dengan cara menghilangkan semua imbuhan (affixes) baik yang terdiri dari awalan, sisipan, akhiran dan kombinasi dari awalan dan akhiran pada kata turunan.
2.4. Komponen Sistem Temu Kembali Informasi
Sistem temu balik informasi terdiri dari komponen-komponen yang saling berkaitan satu sama lain. Menurut Chowdury 1999 dalam Zaenab, 2002: 41 “Pada intinya dalam sistem temu balik informasi terdapat tiga komponen utama yang saling mempengaruhi, yaitu:
1. Kumpulan dokumen
2. Kebutuhan informasi pengguna
3. Proses pencocokan (matching)
BAB III
KESIMPULAN
Dapat disimpulkan bahwa sistem temu kembali informasi merupakan sebuah sistem yang berguna dalam memanggil dan menempatkan dokumen dari/dalam basis data sesuai dengan permintaan pengguna. Sistem temu kembali informasi memiliki tujuan akhir, yaitu memberikan kepuasan informasi bagi pengguna sistem. Jadi, temu kembali informasi merujuk pada keseluruhan kegiatan yang meliputi pembuatan wakil informasi (representation), penyimpanan (storage), pengaturan (organization) sampai kepada pengambilan (access).
DAFTAR PUSTAKA
http://sistemtemukembali.blogspot.co.id/2012/07/tujuan-sistem-temu-kembali-informasi.html
http://repository.widyatama.ac.id/xmlui/bitstream/handle/123456789/5864/Bab%202.pdf?sequence=9








Komentar
Posting Komentar