Oleh: antoniusrc | 27 Mei 2008

Text Mining

Text Mining adalah penggalian yang dilakukan oleh komputer untuk mendapatkan sesuatu yang baru, sesuatu yang tidak diketahui sebelumnya atau menemukan kembali informasi yang tersirat secara implisit, yang berasal dari informasi yang diekstrak secara otomatis dari sumber-sumber data teks yang berbeda-beda. Text mining berbeda dari pencarian di web. Pada pencarian, pengguna biasanya mencari sesuatu yang sudah diketahui oleh mereka atau sudah pernah ditulis oleh orang lain. Permasalahannya adalah bagaimana menyatukan semua data-data yang tidak diberhubungan dengan kebutuhan pengguna tersebut agar dapat digunakan untuk mencari informasi yang sesuai dengan yang dicari.

Text Mining tidak jauh berbeda dengan Data Mining. Yang membedakannya adalah pada sumber datanya, dimana text mining bersumber dari kumpulan dokumen atau teks. Pada text mining, informasi yang akan digali biasanya berisi informasi-informasi yang tidak terstruktur. Oleh karena itu, diperlukan proses pengubahan bentuk dari data yang tidak terstruktur menjadi data yang terstruktur, yang biasanya akan menjadi nilai-nilai numerik. Setelah data menjadi data terstruktur dan berupa nilai numerik maka data dapat dijadikan sebagai sumber data yang dapat diolah lebih lanjut.

Text Mining memiliki area kerja yang luas dan dapat diterapkan diberbagai bidang. Text Mining dapat digunakan untuk Information Retrieval, seperti melakukan indexing dan megambil informasi dari dokumen teks, menemukan kumpulan dokumen yang relevan terhadap suatu permintaan (query) tertentu. Lalu digunakan dalam Information Extraction, seperti mengekstrasi sebagian informasi yang terdapat pada teks. Text Mining dapat digunakan pula pada Web Mining, digunakan untuk proses clustering dan classification.

Proses Text Mining memerlukan beberapa tahapan mengingat data teks memiliki karakteristik yang lebih kompleks dari data biasa.


Responses

  1. saya ingin nanya pak, gimana alur logika kerja bayesian. contohnya dalam hal ini saya ingin membuat aplikasi untuk melakukan mengelompokkan terhadap sejumlah artikel yang diperoleh di internet untuk dikelompokkan berdasarkan setiap bidang ilmu studi seperti artikel untuk study ekonomi, teknik, hukum dan bidang study lainnya.
    yang menjadi pertanyaan adalah
    1. apakah bayesian atau ID3 yang lebih cocok untuk diterapkan pada masalah diatas?
    2. gimana logika kerjanya hingga diperoleh pengelompokkan artikel pada masing-masing bidang study?
    3. apakah saya harus menyediakan terlebih dahulu kata kunci untuk setiap kelompok baru dilakukan perbandingan pada sejumlah artikel?

    terima kasih ya pak dan mohon dibalas hehehe🙂

  2. pa saya mauu tanyaa untuk database kata apakah diperlukan atau tidak dalam bayesian kategori…

    lalu ada contoh yang bisa saya liat tidak pak untuk bayesian. thanks sebelumnya dan mohon dblz komentarnyaa.


Tinggalkan Balasan

Isikan data di bawah atau klik salah satu ikon untuk log in:

Logo WordPress.com

You are commenting using your WordPress.com account. Logout / Ubah )

Gambar Twitter

You are commenting using your Twitter account. Logout / Ubah )

Foto Facebook

You are commenting using your Facebook account. Logout / Ubah )

Foto Google+

You are commenting using your Google+ account. Logout / Ubah )

Connecting to %s

Kategori

%d blogger menyukai ini: