La filosofia de la Mineria de Dades és la conversió de dades en coneixement per a la presa de decisions i com a tal constitueix la fase central del procés d'extracció de coneixement a partir de bases de dades (KDD, Knowledge Discovery in Databases). La Mineria de Dades és un punt de trobada de diferents disciplines: l'estadística, l'aprenentatge automàtic (Machine Learning), les tècniques de bases de dades i els sistemes per a la presa de decisions. Juntes, permeten afrontar molts problemes actuals pel que fa al tractament de la informació.
L'assignatura introdueix les tècniques més establertes per la resolució de tres tipus de problemes fonamentals: anàlisi de dades binàries ("transaccions"), anàlisi de dades científiques (per exemple, de genòmica) i anàlisi de dades d'empreses, els quals configuren bona part dels problemes que tracta la disciplina. Com objectiu paral·lel està la utilització de l'R, un potent entorn de programació lliure.
De per què un estudiant del grau pot estar interessat en aquesta assignatura:
La Mineria de Dades és la disciplina que s'ocupa de processar grans quantitats de dades provinents de sistemes d'informació complexos de les grans organitzacions, per tal d'extreure'n coneixement rellevant, nou i comprensible, útil per a la presa de decisions en tota mena de contextes, des del comerç electrònic, fins a les xarxes socials, passant per la monitorització de sistemes ambientals, les targetes de fidelització de clients, consum en general, la salut pública, banca, finances o la producció industrial.
Es tracta d'un àrea paraigües on és necessari combinar tècniques i metodologies de diverses àrees informàtiques (com el disseny de data warehouses, el machine learning, la modelització estadística, l'anàlisi multivariant de dades, la visualització de dades, la computació intensiva, l'enginyeria del software) per a donar resposta a la complexitat de l'àrea.
Actualment és clar que el valor de les organitzacions està íntimament lligat a la informació que es pot extreure de les dades que disposa i que encara escasseja el perfil professional adequat per a fer-ho. La mineria de dades és precisament la ciència que transforma les dades en valor per les organitzacions i adquirir competències en aquest àmbit és un excel.lent complement per al professional de la informàtica sigui quina sigui la seva àrea d'especialització.
Per als estudiants de sistemes d'informació aquesta assignatura aporta capacitats per completar el procés de dades: sovint un excel.lent disseny del sistema d'informació de l'organització no és prou aprofitat per manca d'un bon servei d'explotació d'aquesta informació amb la mineria de dades adequada. D'altra banda, conèixer el que es pot haver d'extreure de les dades és un referent important a tenir en compte en el disseny de la pròpia estructura de dades. Als estudiants d'enginyeria del software, els aportarà criteri per poder identificar i estandarditzar serveis de mineria de dades a incloure en els grans aplicatius informàtics que donin suport a l'organització decidint i planificant quin consum de dades es proveeix.
Per als estudiants de l'àrea de tecnologies de la informació, resulta interessant el vincle entre la monitorització en temps real de sistemes fixes o mòbils, i les tècniques de data mining per reduir els senyals a indicadors rellevants, per detectar-ne els events a comunicar o per extreure'n la informació important de forma incremental (data stream mining). L'extracció de coneixement sobre dades distribuïdes o emmagatzemades al núvol és una area d'extrema projecció en el futur immediat.
Per als estudiants de computació, presenta reptes molt interessants relatius al desenvolupament de
nous algoritmes d'extracció d'informació més eficients i/o escalables per atacar conjunts de dades molt massius o altres estructures no tant clàssiques com grafs (social-nets mining) o documents (web mining).
Professorat
Responsable
Caroline König (
)
Karina Gibert Oliveras (
)
Altres
Dante Conti (
)
Manuel Gijon Agudo (
)
Mario Martín Muñoz (
)
Sergi Ramirez Mitjans (
)
Sonia Garcia Esteban (
)
Xavier Angerri Torredeflot (
)
Hores setmanals
Teoria
2
Problemes
0
Laboratori
2
Aprenentatge dirigit
0.4
Aprenentatge autònom
5.6
Competències
Competències Tècniques de cada especialitat
Especialitat sistemes d'informació
CSI2 - Integrar solucions de Tecnologies de la Informació i les Comunicacions, i processos empresarials per a satisfer les necessitats d'informació de les organitzacions, permetent que assoleixin els seus objectius de forma efectiva.
CSI2.2
- Concebre, desplegar, organitzar i gestionar sistemes i serveis informàtics, en contextos empresarials o institucionals, per a millorar-ne els processos de negoci; responsabilitzar-se'n i liderar-ne la posada en marxa i la millora contínua; valorar el seu impacte econòmic i social.
CSI2.3
- Demostrar coneixement i capacitat d'aplicació dels sistemes d'extracció i de gestió del coneixement.
CSI2.6
- Demostrar coneixement i capacitat d'aplicació dels sistemes d'ajuda a la presa de decisions i de bussines intelligence.
Competències Transversals
Raonament
G9 [Avaluable] - Capacitat de raonament crític, lògic i matemàtic. Capacitat de resoldre problemes en la seva àrea d'estudi. Capacitat d'abstracció: capacitat de crear i utilitzar models que reflecteixin situacions reals. Capacitat de dissenyar i realitzar experiments senzills, i analitzar-ne i interpretar-ne els resultats. Capacitat d'anàlisi, de síntesi i d'avaluació.
G9.3
- Capacitat crítica, capacitat d'avaluació.
Tercera llengua
G3 [Avaluable] - Conèixer l'idioma anglès amb un nivell adequat de forma oral i escrita, i en consonància amb les necessitats que tindran els graduats i les graduades en Enginyeria Informàtica. Capacitat de treballar en un grup multidisciplinar i en un entorn multilingüe i de comunicar, tant per escrit com de forma oral, coneixements, procediments, resultats i idees relacionats amb la professió d'enginyer tècnic en informàtica.
G3.2
- Estudiar amb materials escrits en anglès. Redactar un informe o un treball de tipus tècnic en anglès. Participar en una reunió tècnica en anglès.
Objectius
Coneixer la tipologia dels principals problemes de la Mineria de Dades
Competències relacionades:
CSI2.3,
CSI2.6,
CSI2.2,
Avaluació de la qualitat de les dades i la necessitat del seu preprocessat
Competències relacionades:
CSI2.3,
CSI2.6,
CSI2.2,
Identificar les tecniques estadístiques i/o d'aprenentatge automàtic més apropiades al problema a resoldre
Competències relacionades:
G9.3,
CSI2.3,
CSI2.6,
CSI2.2,
Avaluació dels resultats obtinguts
Competències relacionades:
G9.3,
CSI2.3,
CSI2.6,
CSI2.2,
Presentació dels resultats en un entorn professional per a la presa de decisions
Competències relacionades:
G9.3,
CSI2.3,
CSI2.6,
G3.2,
CSI2.2,
Continguts
Introducció a la Mineria de Dades.
Modelització estadística i tipus de problemes: anàlisi de dades binàries ("transaccions"), anàlisi de dades científiques i anàlisi de dades d'empreses
Visualització i reducció de la dimensionalitat
Métodes de selecció i extracció de variables. Visualització de dades multivariants.
Clustering
Métodes de partició directa, jeràrquics i maximització de l'esperança
L'aprenentatge es farà seguint la metodologia dels casos, a partir de l'anàlisi de conjunts de dades complexes provinents de problemes reals. A partir d'aquests problemes es desenvoluparan els coneixements científics necessaris en classe de teoria i la seva aplicació en les classes de laboratori, de tal manera que la programació i/o integració de funcions de mineria de dades reforçarà l'assimilació dels diferents conceptes explicats. Per això, s'utilitzarà l'entorn de programació lliure R.
Les classes de laboratori es dedicaran a resoldre problemes relacionats amb els coneixements proporcionats a les classes de teoria i a la resolució per part dels alumnes (de forma autònoma) d'un problema similar. Aquest problema pot incloure la resolució de preguntes molt breus de caràcter conceptual i serà entregat per ser avaluat. Per últim, els alumnes hauran de realitzar dues pràctiques completes, una de modelització estadística i una altra per resoldre un problema del tipus "científic", "transaccions" o "marketing" (un a escollir). Aquesta darrera pràctica serà presentada de forma oral davant el conjunt de la classe.
Mètode d'avaluació
L'avaluació de l'assignatura es realitzarà a partir de la nota obtinguda en els exercicis desenvolupats durant les sessions de laboratori.
Per altra banda es realitzaran dues pràctiques, una realitzada a partir d'un problema de modelització estadística, i l'altra pràctica sobre un dels altres tipus de problemes tractats en l'assignatura. Per cada pràctica l'alumne presentarà el corresponent informe. I per últim, al finalitzar el curs, l'alumne haurà de fer la presentació oral de la segona pràctica.
L'alumne haurà de demostrar en aquests informes i en la presentació haver adquirit els elements de raonament i d'anglès de l'assignatura. Aquests s'avaluaran mitjançant la corresponent rúbrica.
La nota global de laboratori és el promig de les avaluacions dels exercicis desenvolupats a partir de les sessions de laboratori.
La nota final s'obtindrà així:
Labo = nota global de laboratori
Pr1 = nota de la primera pràctica
Pr2 = nota de la segona pràctica
Nota final = 0.2*Labo + 0.4*Pr1 + 0.4*Pr2
En les dues pràctiques, i respecte el seu 40%, el 35% correspon a la correcció tècnica i el 5% correspon a la competència transversal 'raonament', de manera que s'obté un pes global del 10% d'aquesta competència transversal en la nota final.