Informatique Décisionnelle ST221ID

#TODO#
Credits ECTS 8
Langues -Français
Responsable Xavier Lorca
Temps a l'emploi du temps 90
Temps travail personnel 30

Contexte

Les nouvelles infrastructures technologiques (réseaux et mémoires) ont permis et entraîné une explosion des volumes de données numériques échangées et stockées. Le développement d'outils de manipulation des données a accompagné ce changement. Ces outils permettent d'intégrer et d'organiser des données multiples et hétérogènes au sein d'une plate-forme unique, l'entrepôt de données (ou data warehouse), puis de les interroger et de les restituer en informations directement exploitables par les utilisateurs. En aval, une palette d'outils mathématiques et informatiques ont été développés dans le but de traiter une information toujours plus importante dans son volume et plus complexe dans sa structure. Ces outils permettent de quantifier et valider une information supposée (analyse de données), de rechercher de l'information de manière interactive (visualisation de données) ou de découvrir de l'information nouvelle de manière automatique (fouilles de données ou data mining).
L'ensemble de ces outils forme l'informatique décisionnelle (ou business intelligence). Transformant les données brutes en connaissances, ils constituent la première étape (avant la transformation des connaissances en décisions) d'automatisation des systèmes informatiques d'aide à la décision.

Objectifs

Objectifs généraux

Cette unité de valeurs offre un panorama des technologies de l'informatique décisionnelle et de l'extraction des connaissances. Elle vise à familiariser les étudiants à ces technologies, en présentant les fondamentaux des entrepôts de données, de l'analyse et de la fouille statistique, combinatoire et visuelle des données.

Objectifs operationnels

Les objectifs de formation sont pour l'étudiant:
- appréhender les enjeux et les problématiques de la gestion et du traitement des données pour inférer des connaissances;
- initier ou approfondir sa compréhension des techniques de l'informatique décisionnelle, de la collecte des données à l'extraction et la découverte de connaissances;
- se confronter aux aspects techniques et ergonomiques de la visualisation pour savoir intégrer et développer des solutions interactives d'exploration et de fouille visuelle de données.

Competences requises

Compétences requises

Cette unité de valeurs recquiert des connaissances avancées en algorithmique, programmation, programmation par objets, IHM; des connaissances de base en statistiques, analyse de données, et bases de données relationnelles.

Unites de valeurs cibles

Codes UVs cibles

- UV GS1 Génie logiciel (IHM, modélisation)
- UV GS1 Méthodes génériques pour l'ingénieur (statistiques, analyse de données)
- UV GS1 Langages et techniques pour l'aide à la décision (PPC, algorithmique graphique)

UVs cibles

– UV GS2 Projet d'Option

Contenu et organisation pedagogique

Contenu de l'UV

Cette unité de valeurs se déroule sur l'intégralité du semestre de GS2. Elle se compose de 4 modules thématiques.

* Entrepôts de données / Data warehouse.
- enjeux et problématiques: besoins, marchés, fiabilité, volatilité, volumétrie, performance;
- administration et architectures: référentiel, MDM;
- modélisation et analyse multi-dimensionnelle;
- alimentation des données: outils ETL, validation, synchronisation, historisation;
- restitution des données: requêtage, reporting, hypercubes OLAP.
Intervenant: Patrick De Freine, architect solution (Teradata).

* Analyse de données.
L'analyse de données recouvre un ensemble de méthodes de statistique descriptive. Basées sur les corrélations existantes dans un large volume de données multidimensionnelles structurées, ces méthodes proposent de réduire le volume de données à quelques grands groupes (analyse factorielle) ou de le partitionner (classification), dans le but de permettre à l'utilisateur d'extraire de l'information d'une quantité exploitable (plus restreinte et débruitée) d'éléments.
L'objectif de ce module est de familiariser les étudiants avec les méthodes les plus usuelles de l'analyse factorielle: analyse en composantes principales (ACP), analyse factorielle discriminante (AFD)
Intervenant: Philippe Courcoux, enseignant-chercheur (ENITIAA).

* Fouilles de données / Data mining.
Le data mining est aussi un processus d'extraction de connaissances valides et exploitables à partir de grands volumes de données.
Il ne s'agit pas seulement ici de vérifier une hypothèse de corrélation établie par l'utilisateur, mais de déduire les corrélations intéressantes des données seules. Par ailleurs, le data mining s'applique à des données hétérogènes plus ou moins structurées (web mining, par exemple) et dispose ainsi de systèmes performants de préparation ou de manipulation de données.
Situé à la croisée des statistiques, de l'intelligence artificielle et des bases de données, le data mining recouvre un ensemble de méthodes de statistique prédictive, d'algorithmes de combinatoire, ou encore techniques de représentation graphique.
Ce module présente un panorama des tâches et des méthodes de fouille de données: arbres de décision, classification, fouille de règles, fouille visuelle.
Intervenants: Pascale Kuntz, Fabrice Guillet et Julien Blanchard, enseignants-chercheurs (Polytech'Nantes).

* Visualisation de données.
La visualisation d'information est la composante visible de tout système d'aide à la décision, indispensable pour défricher, comprendre et analyser les grandes quantités d'informations.
Ce module consiste en un projet individuel de développement d'un outil interactif de visualisation de données. Il s'agit pour l'élève de:
- choisir un dépôt de données publiques (par exemple, la collection des manuscrits numérisées de la BNF implémentant le protocole OAI-PMH);
- envisager des scénarii d'utilisation;
- choisir un modèle de visualisation répondant à cette tâche;
- choisir les API et architectures logicielles ad hoc;
- développer un prototype fonctionnel.
Intervenant: Cédric Dumas, enseignant-chercheur (EMN).

Activités pédagogiques

– Entrepôts de données (30h) : cours 20h, TP 10h
– Analyse de données (15h) : cours 7h, TP 7h, évaluation individuelle écrite 1h
– Fouille de données (15h) : cours 10h, TP 4h, évaluation individuelle écrite 1h
– Visualisation de données (30h): projet individuel

Supports pédagogiques

Notes de cours, références bibliographiques et projets passés sont disponibles sur Campus.

Critere et mode d'evaluation

Critères d"évaluation

- Entrepôts de données: rédaction en binôme d'un rapport d'étude;
- Analyse de données: évaluation individuelle écrite;
- Fouille de données: évaluation individuelle écrite;
- Visualisation de données: projet individuel de programmation: implémentation + soutenance.

Nombre d'évaluations

4
Haut de page