Introduction to Information Retrieval

Information retrieval:  Subfield of computer science that deals with automated retrieval of documents (especially text) based on their content and context.

Searching:  Seeking for specific information within a body of information. The result of a search is a set of hits.

Browsing: Unstructured exploration of a body of information.

Linking: Moving from one item to another following links, such as citations, references, etc.

Query: A string of text, describing the information that the user is seeking.  Each word of the query is called a search term.

A query can be a single search term, a string of terms, a phrase in natural language, or a stylized expression using special symbols, e.g., a regular expression.

Full text searching:  Methods that compare the query with every word in the text, without distinguishing the function of the various words.

Fielded searching:  Methods that search on specific bibliographic or structural fields, such as author or title.

Corpus: A collection of documents that are indexed and searched together.

Word list: The set of all terms that are used in the index for a given corpus (also known as a vocabulary file).

With full text searching, the word list is all the terms in the corpus, with stop words removed.  Related terms may be combined by stemming.

Controlled vocabulary: A method of indexing where the word list is fixed.  Terms from it are selected to describe each document.

Keywords: A name for the terms in the word list, particularly with controlled vocabulary.

Sorting and Ranking Hits

When a user submits a query to a search system, the system returns a set of hits.  With a large collection of documents, the set of hits maybe very  large.

The value to the user often depends on the order in which the hits are presented.

Three main methods:

•  Sorting the hits, e.g., by date

•  Ranking the hits by similarity between query and

document

•  Ranking the hits by the importance of the documents

Text Based Information Retrieval

Most ranking methods are based on the vector space model.

Most matching methods are based on Boolean operators.

Web search methods combine vector space model with ranking based on importance of documents.

Many practical systems combine features of several approaches.

In the basic form, all approaches treat words as separate tokens with minimal attempt to interpret them linguistically.



Evaluation of Exact Matching : Precision and Recall

Information Retrieval System dinyatakan sempurna ketika setiap dokumen yang berhasil dikeluarkan sistem relevan terhadap query awal, dan setiap relevan item akan ditemukan di badan dokumen tersebut.

Precision dan Recall digunakan untuk mengevaluasi kualitas dari suatu Information Retrieval system. Berikut adalah definisi dari precision dan recall :

Precision didefinisikan sebagai perbandingan antara dokumen teretrieve dengan query tertentu yang relevan terhadap total dokumen yang berhasil diretrieve.

Recall didefinisikan sebagai perbandingan antara dokumen teretrieve dengan query tertentu yang relevan terhadap total document collection yang relevan terhadap query.

contoh :

diberikan sebuah query (q) terhadap Information Retrieval system. Dari total 10000 document collection terdapat 100 document yang relevan terhadap q. Kemudian IR system berhasil meretrieve sebanyak 50 dokumen, di mana dari 50 dokumen tersebut terdapat 20 dokumen yang relevan.

dari uraian tersebut dapat dihitung :

Precision = 20/50 = 0,4

Recall = 20/100 = 0,2

Hasil pencarian yang ideal (ideal search) dari Information Retrieval system adalah meretrieve 100 dokumen yang relevan dan mengabaikan dokumen yang tidak relevan terhadap q. Oleh karenanya pengukuran terhadap precision lebih mudah dilakukan dibandingkan Recall, sebab untuk mengetahui nilai precision seorang knowledgeable person mencari informasi yang dicari berdasarkan query terhadap dokumen-dokumen yang berhasil diretrieve dan memutuskan dokumen mana yang relevan. Dalam contoh di atas perlu mengidentifikasi 50 dokumen yang berhasil diretrieva. Sedangkan untuk mengetahui nilai Recall seorang knowledgeable person perlu mengevaluasi total document collection dan menentukan dokumen-dokumen mana saja yang relevan terhadap query q.

Inverted File

Inverted file didefinisikan sebagai daftar pencarian term yang digunakan untuk mengindex dokumen. Tujuan dari penggunaan inverted file adalah untuk dapat melakukan assosiative look-up, sebagai contoh untuk menjawab pertanyaan “Di dokumen mana sajakah sebuah specified search term muncul ?”.

berikut adalah contoh dari inverted file (versi standar) :

Standar Inverted filedari gambar di atas sebagai contoh term muncul sebanyak 3 kali dalam document collection, masing-masing pada dokumen 3, 19, dan 22.

Namun versi standar dari inverted file tersebut tidak mampu memproses operator boolean adj dan near, untuk itu perlu dilakukan modifikasi inverted file. Modifikasi dilakukan dengan menambahkan jumlah posting dan lokasi suatu term muncul dalam dokumen. Format Inverted file menjadi seperti berikut :

inverted file enhancementdengan demikian ketika terdapat query “abacus adj actor” maka IR system akan meretrieve dokumen 19 yang memuat term abacus dan actor tepat berurutan yaitu masing-masing pada lokasi 212 dan 213.

jangan lupa kunjungi artikel kami yang lain berikut ya :