Titre : | L’indexation des documents images Arabe par la recherche de mots | Type de document : | document électronique | Auteurs : | KHELIL Hiba, Auteur | Année de publication : | 2018-2019 | Langues : | Français (fre) | Catégories : | Informatique:Reconnaissance des formes et Intelligence artificielle.
| Mots-clés : | Word-spooting, OCR Arabe, système immunitaire artificial (AIS), NSHP-HMM, IGNG, I2GNG, CLONCLAS, I2GNG-CLONCLAS. | Résumé : |
Contexte :Dans le cadre de la numérisation des documents manuscrits, l’usage des unités textuelles est évident car l’accès aux informations de ces documents est fait à l’aide de ces unités par l’indexation des masses de collections.
La recherche de mots par similarité de formes (word-spotting) est une technique permettant d’extraire les mots clés recherchés par l’utilisateur dans un texte, écrit, sans aucune contrainte . Cette technique, consiste, à partir de l’orthographe d’un mot en ASCII, de créer un modèle de mots par association de modèles prédéfinis de lettres, et d’aller chercher dans l’image, des mots qui répondent favorablement à ce modèle.
Cette approche est applicable à tout type de document écrit, quel que soit son langage. Il n’est pas nécessaire de créer une base d’apprentissage adaptée à chaque document ou à chaque scripteur, mais une base est nécessaire pour les lettres et les mots.
Plusieurs modèles de mots existent dans la littérature. Ces modèles sont en majorité de type stochastique, des HMM [5], à cause de la variation et le bruit qui entachent les mots.
Objectif : Il s’agit de faire l’état de l’art sur les méthodes de spotting et d’en proposer une méthode originale pour les documents manuscrits arabe « le système immunitaire artificiel». L’approche générale contient trois étapes : une étape de segmentation du texte en mots, une étape de modélisation des mots et une étape de reconnaissance. Pour la segmentation, il faut séparation des lignes et les mots. Pour la modélisation des mots, on utilisera l'extraction des primitives structurelles et on comparera avec le modèle NSHP-HMM développé à Nancy, dans sa version analytique. Enfin, la reconnaissance à partir d’un mot ASCII, nécessite de reconstruire un modèle synthétique de mots et d’étudier sa proximité avec les mots existants, ici on utilisaera les systèmes immunitaires artificiels et on les optimisera par le principe incrémentale de réseaux de neurones I2GNG.
| Directeur de thèse : | DJEBBAR Bachir |
L’indexation des documents images Arabe par la recherche de mots [document électronique] / KHELIL Hiba, Auteur . - 2018-2019. Langues : Français ( fre) Catégories : | Informatique:Reconnaissance des formes et Intelligence artificielle.
| Mots-clés : | Word-spooting, OCR Arabe, système immunitaire artificial (AIS), NSHP-HMM, IGNG, I2GNG, CLONCLAS, I2GNG-CLONCLAS. | Résumé : |
Contexte :Dans le cadre de la numérisation des documents manuscrits, l’usage des unités textuelles est évident car l’accès aux informations de ces documents est fait à l’aide de ces unités par l’indexation des masses de collections.
La recherche de mots par similarité de formes (word-spotting) est une technique permettant d’extraire les mots clés recherchés par l’utilisateur dans un texte, écrit, sans aucune contrainte . Cette technique, consiste, à partir de l’orthographe d’un mot en ASCII, de créer un modèle de mots par association de modèles prédéfinis de lettres, et d’aller chercher dans l’image, des mots qui répondent favorablement à ce modèle.
Cette approche est applicable à tout type de document écrit, quel que soit son langage. Il n’est pas nécessaire de créer une base d’apprentissage adaptée à chaque document ou à chaque scripteur, mais une base est nécessaire pour les lettres et les mots.
Plusieurs modèles de mots existent dans la littérature. Ces modèles sont en majorité de type stochastique, des HMM [5], à cause de la variation et le bruit qui entachent les mots.
Objectif : Il s’agit de faire l’état de l’art sur les méthodes de spotting et d’en proposer une méthode originale pour les documents manuscrits arabe « le système immunitaire artificiel». L’approche générale contient trois étapes : une étape de segmentation du texte en mots, une étape de modélisation des mots et une étape de reconnaissance. Pour la segmentation, il faut séparation des lignes et les mots. Pour la modélisation des mots, on utilisera l'extraction des primitives structurelles et on comparera avec le modèle NSHP-HMM développé à Nancy, dans sa version analytique. Enfin, la reconnaissance à partir d’un mot ASCII, nécessite de reconstruire un modèle synthétique de mots et d’étudier sa proximité avec les mots existants, ici on utilisaera les systèmes immunitaires artificiels et on les optimisera par le principe incrémentale de réseaux de neurones I2GNG.
| Directeur de thèse : | DJEBBAR Bachir |
|