les Thèses Soutenues à l'USTO MB
vous cherchez une thèse?
A partir de cette page vous pouvez :
Retourner au premier écran avec les dernières notices... | Votre compte |
Détail de l'auteur
Auteur HENNI Khadidja
Documents disponibles écrits par cet auteur
Faire une suggestion Affiner la recherche
Titre : Les Processus Ponctuels Marqués Pour la Classification des Données Post-Génomiques Type de document : document électronique Auteurs : HENNI Khadidja, Auteur Année de publication : 2017 Importance : 172 p. Accompagnement : CD Langues : Français (fre) Catégories : Informatique:informatique Mots-clés : Clustering basé sur la densité, mode des classes, processus ponctuels marqués, processus par composantes connexes, Metropolis-hasting-Green, données multidimensionnelles, données gènes/expression.
Density-based clustering, cluster modes, marked point processes, connected components process, Metropolis-hasting-Green, multidimensional data, data genes expression.Résumé : Cette thèse aborde le problème de la classification non supervisée (clustering) des données multidimensionnelles qui est une étape cruciale dans le processus d'analyse de données. L'approche présentée recherche les modes de la fonction de densité de probabilité sous-jacente aux données par une technique venant de la géométrie stochastique "les processus ponctuels marqués". La recherche des modes est la première étape du processus de clustering, c'est là où l'algorithme élabore un modèle d'apprentissage solide. Cette étape repose donc sur la simulation d'un processus ponctuel marqué, l'hypothèse principale consiste à localiser des régions de haute concentration de données par les objets du processus. Le processus objets est construit en définissant sa fonction de densité de probabilité, cette densité est proportionnelle à l'exponentiel de l'énergie de Gibbs du processus qui est définie par un terme a priori et un terme dérivé des données qui encourage le positionnement des objets dans des régions de haute densité. Le processus ponctuel marqué est échantillonné par un algorithme de type Monte-Carlo par Chaînes de Markov à sauts réversibles (RJMCMC) en particulier l'algorithme de Metropolis-Hasting-Green. Il simule quatre mouvements : naissance, mort, déplacement d'objets et changement de la taille des objets. La recherche des modes de classes partitionne l'ensemble de données en : données prototypes classées et données non-prototypes sans assignation. Cette étape est poursuivie par l'affectation des données non-prototypes selon le principe des k plus proches voisins, où l'ordre de voisinage est respecté. L'algorithme a été testé sur des données artificielles et d'autres réelles (post-génomique) et comparé à d'autres algorithmes très connus dans la littérature du clustering. Il a donné des résultats prometteurs.
This thesis addresses the problem of unsupervised clustering of multidimensional data which is a crucial step in the data analysis process. The proposed approach searches modes of the probability density function underlying the data by a stochastic technique Marked Point Process". The search modes is the first step of the clustering process, in which the algorithm develops a strong learning model. This step is based on the simulation of a marked point process, the main hypothesis consists in locating high concentration data areas by the object process. The process is a set of random variables whose realizations are configurations of geometrical objects. The object process is defined by its probability density function, modeled by the reference to the Poisson process. This density can be expressed as a process Gibbs energy which is defined by an internal energy and a data driven energy locating objects in high density areas. The marked point process is sampled through an adapted Monte Carlo Markov Chain Reversible Jump algorithm (RJMCMC), the “Metropolis Hasting Green” algorithm. It simulates four movements: birth, death, displacement and changing radius, it searches the configurations which maximize the process probability density function. The class modes detection step divides the dataset on: prototypes data and non-prototypes data. This step was followed by assigning non-prototypes data one by one to the nearest clusters, based on the principle of the k nearest neighbor and respecting their distances to the prototypes data. The appropriate values of the proposed algorithm parameters are estimated from datasets and by a learning step. The proposed algorithm was compared against several clustering algorithms reported in the literature, using several standard non-linearly separable and high dimensional collections, artificial and real datasets (gene/expression data). The experimental evaluation was focused on comparing algorithms according to the clustering quality, the number of clusters, the overlapping of clusters and other issues. We can conclude that among all the competitive clustering algorithms used in experiments, our proposed algorithm is the better.Directeur de thèse : ZAOUI Lynda Les Processus Ponctuels Marqués Pour la Classification des Données Post-Génomiques [document électronique] / HENNI Khadidja, Auteur . - 2017 . - 172 p. + CD.
Langues : Français (fre)
Catégories : Informatique:informatique Mots-clés : Clustering basé sur la densité, mode des classes, processus ponctuels marqués, processus par composantes connexes, Metropolis-hasting-Green, données multidimensionnelles, données gènes/expression.
Density-based clustering, cluster modes, marked point processes, connected components process, Metropolis-hasting-Green, multidimensional data, data genes expression.Résumé : Cette thèse aborde le problème de la classification non supervisée (clustering) des données multidimensionnelles qui est une étape cruciale dans le processus d'analyse de données. L'approche présentée recherche les modes de la fonction de densité de probabilité sous-jacente aux données par une technique venant de la géométrie stochastique "les processus ponctuels marqués". La recherche des modes est la première étape du processus de clustering, c'est là où l'algorithme élabore un modèle d'apprentissage solide. Cette étape repose donc sur la simulation d'un processus ponctuel marqué, l'hypothèse principale consiste à localiser des régions de haute concentration de données par les objets du processus. Le processus objets est construit en définissant sa fonction de densité de probabilité, cette densité est proportionnelle à l'exponentiel de l'énergie de Gibbs du processus qui est définie par un terme a priori et un terme dérivé des données qui encourage le positionnement des objets dans des régions de haute densité. Le processus ponctuel marqué est échantillonné par un algorithme de type Monte-Carlo par Chaînes de Markov à sauts réversibles (RJMCMC) en particulier l'algorithme de Metropolis-Hasting-Green. Il simule quatre mouvements : naissance, mort, déplacement d'objets et changement de la taille des objets. La recherche des modes de classes partitionne l'ensemble de données en : données prototypes classées et données non-prototypes sans assignation. Cette étape est poursuivie par l'affectation des données non-prototypes selon le principe des k plus proches voisins, où l'ordre de voisinage est respecté. L'algorithme a été testé sur des données artificielles et d'autres réelles (post-génomique) et comparé à d'autres algorithmes très connus dans la littérature du clustering. Il a donné des résultats prometteurs.
This thesis addresses the problem of unsupervised clustering of multidimensional data which is a crucial step in the data analysis process. The proposed approach searches modes of the probability density function underlying the data by a stochastic technique Marked Point Process". The search modes is the first step of the clustering process, in which the algorithm develops a strong learning model. This step is based on the simulation of a marked point process, the main hypothesis consists in locating high concentration data areas by the object process. The process is a set of random variables whose realizations are configurations of geometrical objects. The object process is defined by its probability density function, modeled by the reference to the Poisson process. This density can be expressed as a process Gibbs energy which is defined by an internal energy and a data driven energy locating objects in high density areas. The marked point process is sampled through an adapted Monte Carlo Markov Chain Reversible Jump algorithm (RJMCMC), the “Metropolis Hasting Green” algorithm. It simulates four movements: birth, death, displacement and changing radius, it searches the configurations which maximize the process probability density function. The class modes detection step divides the dataset on: prototypes data and non-prototypes data. This step was followed by assigning non-prototypes data one by one to the nearest clusters, based on the principle of the k nearest neighbor and respecting their distances to the prototypes data. The appropriate values of the proposed algorithm parameters are estimated from datasets and by a learning step. The proposed algorithm was compared against several clustering algorithms reported in the literature, using several standard non-linearly separable and high dimensional collections, artificial and real datasets (gene/expression data). The experimental evaluation was focused on comparing algorithms according to the clustering quality, the number of clusters, the overlapping of clusters and other issues. We can conclude that among all the competitive clustering algorithms used in experiments, our proposed algorithm is the better.Directeur de thèse : ZAOUI Lynda Exemplaires
Code-barres Cote Support Localisation Section Disponibilité 1212 02-08-415 Version numérique et papier Bibliothèque Centrale Thèse de Doctorat Exclu du prêt Documents numériques
02-08-415.pdfAdobe Acrobat PDF
BUC USTOMB'Thèses
Service Thèse de la BUC met à votre votre disposition L'ensemble des thèses de doctorat et mémoires de magister soutenues à l'USTO MB
Adresse
BUC USTOMB'ThèsesBibliothèque centrale USTOMB
BP 1505 EL M'Naouer USTO ORAN
Algérie
(213)041627180
contact