Saltar al contingut Menu
Mapa
  • Inici
  • Informació
  • Contacte
  • Mapa

Recuperació de la Informació (RI)

Crèdits Dept. Tipus Requisits
7.5 (6.0 ECTS) CS
  • Optativa per a l'EI
  • Optativa per a l'ETIG
  • Optativa per a l'ETIS
PRED - Pre-requisit per la EI , ETIG
PS - Pre-requisit per la ETIS

Professors

Responsable:  (-)
Altres:(-)

Objectius Generals

Entendre el problema de la recuperació de la informació. Entendre els diferents components de un sistema de recuperació de la informació i els factors i tècniques que poden optimitzar el procés i saber-los usar i adaptar.
Conèixer algunes aplicaciones d'aquests sistemes, com a mínim a la bioinformatica i a la Web.

Objectius Específics

Coneixements

  1. Conèixer els problemes associats a l'emmagatzemament i recuperació de la informació, sobretot de tipus textual.
  2. Entendre que l'efectivitat en la cerca i recuperació de la informació està molt relacionada amb l'organització i descripció d'aquesta informació.
  3. Conèixer els algorismes i tècniques més importants de cerca de patrons en informació textual.
  4. Descriure les aplicacions en bioinformàtica i en la web de les tècniques de recuperació de la informació.

Habilitats

  1. Poder decidir les tècniques de recuperació de la informació que poden ser efectives en un sistema d'informació concret, sobretot de tipus textual.
  2. En particular, poder decidir les tècniques de cerca i recuperació de la informació a emprar en aplicacions senzilles de l'àmbit de la bioinformàtica i de la Web.
  3. Poder avaluar l'efectivitat i utilitat, d'acord amb diversos criteris, d'un sistema de recuperació de la informació.
  4. Poder implementar les tècniques bàsiques (algorismes i estuctures de dades) de recuperació de la informació.
  5. Saber utilitzar i adaptar una eina per manegar informació textual com ara Lucene.

Competències

  1. Capacitat d'aplicar els coneixements de matemàtiques i lògica a la resolució de problemes.
  2. Capacitat per crear i utilitzar models de la realitat.
  3. Capacitat per dissenyar i dur a terme experiments, i d'analitzar-ne els resultats.
  4. Capacitat per dissenyar sistemes, components o processos que s'ajustin a unes necessitats, utilitzant els mètodes, tècniques i eines més adients en cada cas.
  5. Capacitat per prendre decisions en presència d'incertesa o de requisits contradictoris
  6. Capacitat d'actuar autònomament: Saber treballar de forma independent, rebent només la informació indispensable i un mínim de guiatge.
  7. Capacitat d'aprendre autònomament.

Continguts

Hores estimades de:

T P L Alt L Ext. Est A Ext.
Teoria Problemes Laboratori Altres activitats Laboratori extern Estudi Altres hores fora d'horari fixat

1. Introducció
T      P      L      Alt    L Ext. Est    A Ext. Total 
2,0 1,0 2,0 0 1,0 2,0 0 8,0
Necessitat de les tècniques de recuperació de la informació. Recuperació de la informació vs. bases de dades. Procés de recuperació de la informació. Preprocés i anàlisi lèxica.

2. Models de recuperació de la informació
T      P      L      Alt    L Ext. Est    A Ext. Total 
4,0 4,0 2,0 0 2,0 10,0 0 22,0
Definició formal i conceptes bàsics: Models abstractes de documents i llenguatges d'interrogació. Model booleà. Model vectorial. Latent Semantic Indexing.

3. Indexació i cerques, implementació
T      P      L      Alt    L Ext. Est    A Ext. Total 
2,0 2,0 0 0 0 4,0 0 8,0
Fitxers invertits. Compressió d'índexos. Exemple: Implementació eficient de la regla del cosinus amb mesura tf-idf. Exemple: Lucene.

4. Avaluació en recuperació de la informació
T      P      L      Alt    L Ext. Est    A Ext. Total 
2,0 2,0 2,0 0 4,0 4,0 0 14,0
Recall i precisió. Altres mesures de rendiment. Col·leccions de referència. "Relevance feedback" i "query expansion".

5. Aplicacions a la Web
T      P      L      Alt    L Ext. Est    A Ext. Total 
8,0 6,0 0 0 0 8,0 0 22,0
Ranking i relevancia per a models Web. Algorisme PageRank. Arquitectura de cercadors web. Web crawling. Anàlisi de xarxes socials basat en enllaços.

6. Cerca seqüèncial i indexada
T      P      L      Alt    L Ext. Est    A Ext. Total 
8,0 8,0 3,0 0 2,0 16,0 0 37,0
Cerca de patrons. Algorismes per la cerca exacta i aproximada. Models de Markov ocults. Tries. Fitxers invertits, arbre de sufixos. Algorismes de construcció, utilització i anàlisi.

7. Aplicacions a la bioinformàtica
T      P      L      Alt    L Ext. Est    A Ext. Total 
6,0 6,0 3,0 0 2,0 15,0 0 32,0
Patrons en cadenes d'ADN. Similaritat de seqüències.
Seqüènciació d'ADN. Bases de dades per a ADN.


Total per tipus T      P      L      Alt    L Ext. Est    A Ext. Total 
32,0 29,0 12,0 0 11,0 59,0 0 143,0
Hores addicionals dedicades a l'avaluació 5,0
Total hores de treball per l'estudiant 148,0

Metodologia docent

En les classes de laboratori s'implementaran (variacions dels) algorismes vistos a teoria i problemes, o bé s'aplicaran les tècniques en situacions relativament reals de cerca d'informació.

Algunes sessions de laboratori poden exigir una estona de preparació prèvia. En algunes sessions es demanarà la redacció d'un informe curt o bé el lliurament del codi desenvolupat, que comptaran per a l'avaluació de l'assignatura.

Actualment s'esta fent servir el paquet Lucene.

Mètode d'avaluació

Hi haurà un primer examen parcial a mig curs, i a final de curs
els estudiants poden triar entre fer un segon parcial o bé un examen final
de tota l'assignatura.

La nota de laboratori es calcularà en base als informes o els programes
lliurats després de les sessions de laboratori.

La nota de l'assignatura es calcularà com:

Estudiants que trien fer el 2on parcial:

0.2 * nota laboratori
+ 0.4 * prova parcial 1
+ 0.4 * prova parcial 2

Estudiants que trien fer l'examen final:

0.2 * nota laboratori
+ maxim (0.2 * prova parcial 1 + 0.6 * examen final,
0.8 * examen final)

Bibliografía bàsica

  • Ricardo Baeza-Yates, Berthier Ribeiro-Neto. Modern information retrieval, Addison-Wesley, 1999.
  • Ian H. Witten, Alistair Moffat, Timothy C. Bell Managing gigabytes : compressing and indexing documents and images, Morgan Kauffman, 1999.
  • Gonzalo Navarro, Matthieu Raffinot Flexible pattern matching in strings : practical on-line search algorithms for texts and biological sequences, Cambridge University Press, 2002.
  • Christopher D. Manning, Prabhakar Raghavan, Hinrich Schütze. Introduction to Information Retrieval, Cambridge University Press, 2008.
  • Dan Gusfield Algorithms on strings, trees, and sequences: computer science and computational biology , Cambridge University Press, 1997.

Bibliografía complementària

  • Richard K. Belew Finding out about : a cognitive perspective on search engine technology and the WWW, Cambridge University Press, 2000.
  • Otis Gospodnetic, Erik Hatcher Lucene in action, Manning, 2005.
  • Zdravko Markov, Daniel T. Larose Data mining the web, Wiley Interscience, 2007.

Enllaços web

  1. http://lucene.apache.org/java/docs/
    Web del projecte Lucene


  2. http://en.wikipedia.org/wiki/Information_Retrieval
    "Information Retrieval" a la Wikipedia


  3. http://www-csli.stanford.edu/~schuetze/information-retrieval-book.html
    Esborrany online del llibre "Introduction to Information Retrieval",
    de Christopher D. Manning, Prabhakar Raghavan and Hinrich Schütze.


  4. http://www-pagines.fib.upc.es/~ri/
    Pàgina amb material de l'assignatura


Capacitats prèvies

Capacitat per fer programes mitjans, preferentment amb orientació a objectes.

Capacitat per dissenyar i analitzar estructures de dades senzilles.

Conèixer la distinció entre memòria principal i memòria secundària i el seu impacte en l'eficiència dels programes.


Compartir

 
logo FIB © Facultat d'Informàtica de Barcelona - Contacte - RSS
Aquest web utilitza cookies pròpies per oferir una millor experiència i servei. En continuar amb la navegació entenem que acceptes la nostra política de cookies.
Versió clàssica Versió mòbil