logo Formation Continue

Data Mining

Résumé de la formation

  • Type de diplôme: Stage court
  • Domaines de compétences: Informatique – Télécommunications – Réseaux

Présentation

Présentation

Responsable du stage

Philippe Besse

Professeur des Universités

 

Professeur au département Génie Mathématiques et Modélisation de 0l’INSA Toulouse.

Membre de l’équipe Statistique et Probabilités de l’Institut de Mathématiques (UMR CNRS 5219).

Membre du bureau de la Plateforme Biostatistique de la Génopole de Toulouse.

Objectifs

L’objectif de cette formation est d’aborder une sélection des méthodes récentes de statistique et d’apprentissage machine appliquées à des données de grande dimension pour la fouille de données (data mining).

L’accent est mis sur les techniques de modélisation et prévision récente.
Tous ces éléments (initiation à R, introduction au modèle linéaire et à l’analyse en composantes principales) sont disponibles sur le site: http://wikistat.fr.

Le programme peut être précisé à partir des mots-clefs ci-dessous en fonction des besoins et problématiques de l’entreprise ainsi que du temps disponible.

Programme

Contenu de la formation

Introduction :
Changements de paradigmes en Statistique : data mining, apprentissage, big data.

  • Théorie:
    • Estimation d’erreur, de prévision et risque.
    • Modèle linéaire et régression logistique (sélection de modèle par sélection de variables et/ou pénalisation).
    • Modèle linéaire et réduction de dimension : composantes principales, régression PLS et versions parcimonieuses (sparse).
    • Modèles semi-paramétriques et non paramétriques.
    • Analyse discriminante décisionnelle, Méthodes CART (arbres binaires de régression et classification).
    • Introduction aux réseaux de neurones.
    • Agrégation de modèles (boosting, bagging, et random forest).
    • Introduction aux SVM (support vector machines ou séparateur à vaste marges)
  • Travaux pratiques:
    • En fonction des besoins ou objectifs.
    • Pratique de ces méthodes avec le logiciel E sur différents types de jeux de données de complexité élémentaire (peu de variables) à élevée : gestion de la relation client (GRC), criblage virtuel, données spectrométriques (NIR RMN), textuelles, omiques.

Admission

Condition d'accès

Les prérequis sont ceux d’un enseignement en statistique classique à Bac+4: une bonne connaissance du modèle linéaire et de l’analyse en composantes principales. Une connaissance pratique de R est nécessaire.

Contact(s)

Lieu(x) de la formation

  • Toulouse

Contact(s) administratif(s)

BERNAD Olivier

Conseiller Formations Qualifiantes

Tél : 05 61 55 92 53

Email : obernad @ insa-toulouse.fr

Plus d'infos

Public concernéFormation continue, Formation continue non diplômante, Formation professionnelle

Durée du stage À la demande

Nous contacter

Toulouse Tech Formation Professionnelle

6 allée Emile Monso - BP 34038
31029 Toulouse Cedex 4

05 34 32 31 08

Contacts

Service commun des centres de Formation Continue de l'INP Toulouse et de l'INSA Toulouse

  • Logo MENESR
  • Logo Region
  • Logo UTFTMP
  • Logo INP
  • Logo INPT
  • Logo Ensat
  • Logo Enseeiht
  • Logo Ensiacet
  • Logo INSA
  • Logo CTI
  • Logo CGE