Catalogue en ligne BUC USTOMB'Thèses

les Thèses Soutenues à l'USTO MB

vous cherchez une thèse?

A partir de cette page vous pouvez :

Retourner au premier écran avec les dernières notices...

Votre compte

Détail de l'auteur

Auteur HENNI Khadidja

Documents disponibles écrits par cet auteur

Faire une suggestion Affiner la recherche

Les Processus Ponctuels Marqués Pour la Classification des Données Post-Génomiques / HENNI Khadidja

Public

ISBD

Titre : Les Processus Ponctuels Marqués Pour la Classification des Données Post-Génomiques
Type de document : document électronique
Auteurs : HENNI Khadidja, Auteur
Année de publication : 2017
Importance : 172 p.
Accompagnement : CD
Langues : Français (fre)
Catégories : Informatique:informatique
Mots-clés : Clustering basé sur la densité, mode des classes, processus ponctuels marqués, processus par composantes connexes, Metropolis-hasting-Green, données multidimensionnelles, données gènes/expression.

Density-based clustering, cluster modes, marked point processes, connected components process, Metropolis-hasting-Green, multidimensional data, data genes expression.
Résumé : Cette thèse aborde le problème de la classification non supervisée (clustering) des données multidimensionnelles qui est une étape cruciale dans le processus d'analyse de données. L'approche présentée recherche les modes de la fonction de densité de probabilité sous-jacente aux données par une technique venant de la géométrie stochastique "les processus ponctuels marqués". La recherche des modes est la première étape du processus de clustering, c'est là où l'algorithme élabore un modèle d'apprentissage solide. Cette étape repose donc sur la simulation d'un processus ponctuel marqué, l'hypothèse principale consiste à localiser des régions de haute concentration de données par les objets du processus. Le processus objets est construit en définissant sa fonction de densité de probabilité, cette densité est proportionnelle à l'exponentiel de l'énergie de Gibbs du processus qui est définie par un terme a priori et un terme dérivé des données qui encourage le positionnement des objets dans des régions de haute densité. Le processus ponctuel marqué est échantillonné par un algorithme de type Monte-Carlo par Chaînes de Markov à sauts réversibles (RJMCMC) en particulier l'algorithme de Metropolis-Hasting-Green. Il simule quatre mouvements : naissance, mort, déplacement d'objets et changement de la taille des objets. La recherche des modes de classes partitionne l'ensemble de données en : données prototypes classées et données non-prototypes sans assignation. Cette étape est poursuivie par l'affectation des données non-prototypes selon le principe des k plus proches voisins, où l'ordre de voisinage est respecté. L'algorithme a été testé sur des données artificielles et d'autres réelles (post-génomique) et comparé à d'autres algorithmes très connus dans la littérature du clustering. Il a donné des résultats prometteurs.

This thesis addresses the problem of unsupervised clustering of multidimensional data which is a crucial step in the data analysis process. The proposed approach searches modes of the probability density function underlying the data by a stochastic technique Marked Point Process". The search modes is the first step of the clustering process, in which the algorithm develops a strong learning model. This step is based on the simulation of a marked point process, the main hypothesis consists in locating high concentration data areas by the object process. The process is a set of random variables whose realizations are configurations of geometrical objects. The object process is defined by its probability density function, modeled by the reference to the Poisson process. This density can be expressed as a process Gibbs energy which is defined by an internal energy and a data driven energy locating objects in high density areas. The marked point process is sampled through an adapted Monte Carlo Markov Chain Reversible Jump algorithm (RJMCMC), the “Metropolis Hasting Green” algorithm. It simulates four movements: birth, death, displacement and changing radius, it searches the configurations which maximize the process probability density function. The class modes detection step divides the dataset on: prototypes data and non-prototypes data. This step was followed by assigning non-prototypes data one by one to the nearest clusters, based on the principle of the k nearest neighbor and respecting their distances to the prototypes data. The appropriate values of the proposed algorithm parameters are estimated from datasets and by a learning step. The proposed algorithm was compared against several clustering algorithms reported in the literature, using several standard non-linearly separable and high dimensional collections, artificial and real datasets (gene/expression data). The experimental evaluation was focused on comparing algorithms according to the clustering quality, the number of clusters, the overlapping of clusters and other issues. We can conclude that among all the competitive clustering algorithms used in experiments, our proposed algorithm is the better.
Directeur de thèse : ZAOUI Lynda

Les Processus Ponctuels Marqués Pour la Classification des Données Post-Génomiques [document électronique] / HENNI Khadidja, Auteur . - 2017 . - 172 p. + CD.
Langues : Français (fre)
Catégories : Informatique:informatique
Mots-clés : Clustering basé sur la densité, mode des classes, processus ponctuels marqués, processus par composantes connexes, Metropolis-hasting-Green, données multidimensionnelles, données gènes/expression.

Density-based clustering, cluster modes, marked point processes, connected components process, Metropolis-hasting-Green, multidimensional data, data genes expression.
Résumé : Cette thèse aborde le problème de la classification non supervisée (clustering) des données multidimensionnelles qui est une étape cruciale dans le processus d'analyse de données. L'approche présentée recherche les modes de la fonction de densité de probabilité sous-jacente aux données par une technique venant de la géométrie stochastique "les processus ponctuels marqués". La recherche des modes est la première étape du processus de clustering, c'est là où l'algorithme élabore un modèle d'apprentissage solide. Cette étape repose donc sur la simulation d'un processus ponctuel marqué, l'hypothèse principale consiste à localiser des régions de haute concentration de données par les objets du processus. Le processus objets est construit en définissant sa fonction de densité de probabilité, cette densité est proportionnelle à l'exponentiel de l'énergie de Gibbs du processus qui est définie par un terme a priori et un terme dérivé des données qui encourage le positionnement des objets dans des régions de haute densité. Le processus ponctuel marqué est échantillonné par un algorithme de type Monte-Carlo par Chaînes de Markov à sauts réversibles (RJMCMC) en particulier l'algorithme de Metropolis-Hasting-Green. Il simule quatre mouvements : naissance, mort, déplacement d'objets et changement de la taille des objets. La recherche des modes de classes partitionne l'ensemble de données en : données prototypes classées et données non-prototypes sans assignation. Cette étape est poursuivie par l'affectation des données non-prototypes selon le principe des k plus proches voisins, où l'ordre de voisinage est respecté. L'algorithme a été testé sur des données artificielles et d'autres réelles (post-génomique) et comparé à d'autres algorithmes très connus dans la littérature du clustering. Il a donné des résultats prometteurs.

This thesis addresses the problem of unsupervised clustering of multidimensional data which is a crucial step in the data analysis process. The proposed approach searches modes of the probability density function underlying the data by a stochastic technique Marked Point Process". The search modes is the first step of the clustering process, in which the algorithm develops a strong learning model. This step is based on the simulation of a marked point process, the main hypothesis consists in locating high concentration data areas by the object process. The process is a set of random variables whose realizations are configurations of geometrical objects. The object process is defined by its probability density function, modeled by the reference to the Poisson process. This density can be expressed as a process Gibbs energy which is defined by an internal energy and a data driven energy locating objects in high density areas. The marked point process is sampled through an adapted Monte Carlo Markov Chain Reversible Jump algorithm (RJMCMC), the “Metropolis Hasting Green” algorithm. It simulates four movements: birth, death, displacement and changing radius, it searches the configurations which maximize the process probability density function. The class modes detection step divides the dataset on: prototypes data and non-prototypes data. This step was followed by assigning non-prototypes data one by one to the nearest clusters, based on the principle of the k nearest neighbor and respecting their distances to the prototypes data. The appropriate values of the proposed algorithm parameters are estimated from datasets and by a learning step. The proposed algorithm was compared against several clustering algorithms reported in the literature, using several standard non-linearly separable and high dimensional collections, artificial and real datasets (gene/expression data). The experimental evaluation was focused on comparing algorithms according to the clustering quality, the number of clusters, the overlapping of clusters and other issues. We can conclude that among all the competitive clustering algorithms used in experiments, our proposed algorithm is the better.
Directeur de thèse : ZAOUI Lynda

Exemplaires

Code-barres Cote Support Localisation Section Disponibilité
1212 02-08-415 Version numérique et papier Bibliothèque Centrale Thèse de Doctorat Exclu du prêt

Documents numériques

02-08-415.pdf
Adobe Acrobat PDF

Code-barres	Cote	Support	Localisation	Section	Disponibilité
1212	02-08-415	Version numérique et papier	Bibliothèque Centrale	Thèse de Doctorat	Exclu du prêt

BUC USTOMB'Thèses

Service Thèse de la BUC met à votre votre disposition L'ensemble des thèses de doctorat et mémoires de magister soutenues à l'USTO MB

Accueil

Adresse

BUC USTOMB'Thèses
Bibliothèque centrale USTOMB
BP 1505 EL M'Naouer USTO ORAN
Algérie
(213)041627180
contact