Titre : | Les annotations sémantiques dans les documents Web : application aux textes psychologiques en langue arabe | Type de document : | document électronique | Auteurs : | LAKEL Kheira, Auteur | Année de publication : | 2017-2018 | Accompagnement : | CD | Langues : | Français (fre) | Catégories : | Informatique:informatique
| Mots-clés : | Programmation Linéaire en Nombre Entier, Reconnaissance des Entités Nommées en
Arabe, Extraction des Relations, Extraction des Informations Psychologiques.
Integer Linear Programming, Arabic Named Entity Recognition, Relation Extraction,
Psychological Information Extraction.
البرمجة الخطیة الصحیحة، التعرف على الكیانات العربیة ، استخلاص العلاقة ، استخراج المعلومات النفسیة . | Résumé : | La reconnaissance d’entités nommées est une composante essentielle du traitement
(bio)médical du langage naturel, permettant l’extraction d’informations et la découverte de
connaissances à partir de textes. Généralement, les études réalisées concernant l’extraction de
l’information (bio)médicale ont été développées en anglais et dans certaines langues. Cependant,
aucune étude n’a été développée en langue arabe. Pour cela, la langue arabe doit effectuer plus de
recherches dans ce domaine et par conséquent nous avons introduit une approche d’extraction
d’informations psychologiques. Cette recherche consiste en la reconnaissance des entités
psychologiques et l’extraction des relations à partir du texte. Deux techniques ont été appliquées pour
le processus de reconnaissance : la première condition préalable à la technique dépendait entièrement
de l’identification directe avec l’utilisation des Gazetteers et la deuxième technique est un modèle basé
sur des règles dans lequel les techniques sont construites sur la base des nomenclatures. Les
expériences donnent F-mesure globales de 86, 407%. Et pour lier les NERs psychologique, nous avons
intégré une formulation de programmation linéaire. Au meilleur de nos connaissances, c’est la
première approche sur l’extraction d’information psychologique pour inclure dans l’état de l’art des
travaux effectués en la langue arabe.
Named entity recognition is a crucial component of (bio)medical natural language
processing, enabling information extraction and knowledge discovery from text. Generally, the
achieved studies concerning the (bio)medical information extraction were developed in English and
some languages. However, there is no study that was developed in the Arabic language. For this, the
Arabic Language needs to perform more researches in this area and hence we introduced a
Psychological information extraction approach. This research consists of psychological entities
recognition and Relation Extraction from the text. Two techniques were applied for the recognition
processes: the first requirement prior to the technique was completely dependent on direct
identification with the utilization of gazetteers and the second technique is a rule-based model in
which rules are techniques were put constructed on the basis of a gazetteers list. Experiments yield the
overall F–measure values of 86,407%. And for joint Psychological NER we integrate a Linear
Programming Formulation. On the best of our knowledge, this is the first approach on psychological
information Extraction to include the state of the work done for Arabic language.
یعتبر التعرف على الكیانات المسماة مكونا أساسیا في معالجة اللغة الطبیعیة الطبیة (الحیویة) ، مما یتیح
استخراج المعلومات واكتشاف المعرفة من النص. عموما، تم تطویر الدراسات التي تم التوصل إلیھا بشأن استخراج
المعلومات الطبیة (الحیویة) باللغة الإنجلیزیة وبعض اللغات الأخرى. ومع ذلك، لا توجد أي دراسة تم تطویرھا
باللغة العربیة. لھذا، یجب أن تكون اللغة العربیة أكثر فاعلیة في ھذا المجال، ومن ثم فإننا أدرجنا نھج استخراج
المعلومات النفسیة. ھذا البحث یھتم بالتعرف على الكیانات النفسیة واستخراج العلاقات من النص. طبُقت اثنین من التقنیات
لعملیة الاعتراف: فالمتطلب الأول ھو أن التقنیة تعتمد بشكل كامل على التحدید المباشر لاستخدام قوائم مصطلحات والتقنیة
الثانیة ھي نموذج قائم على القواعد حیث تم فیھ وضع القواعد على أساس قائمة المعاجم. تنتج عن التجارب القیمة
الإجمالیة % 86,407 . و من أجل وصل المصطلحات النفسیة، قمنا بإدماج البرمجة الخطیة. على حد علمنا، ھذا
ھو النھج الأول الذي یھتم باستخراج المعلومات النفسیة. و ذلك من أجل ضمھ إلى ما تم إجراؤه للغة العربیة. | Directeur de thèse : | BENDELLA Fatima |
Les annotations sémantiques dans les documents Web : application aux textes psychologiques en langue arabe [document électronique] / LAKEL Kheira, Auteur . - 2017-2018 . - + CD. Langues : Français ( fre) Catégories : | Informatique:informatique
| Mots-clés : | Programmation Linéaire en Nombre Entier, Reconnaissance des Entités Nommées en
Arabe, Extraction des Relations, Extraction des Informations Psychologiques.
Integer Linear Programming, Arabic Named Entity Recognition, Relation Extraction,
Psychological Information Extraction.
البرمجة الخطیة الصحیحة، التعرف على الكیانات العربیة ، استخلاص العلاقة ، استخراج المعلومات النفسیة . | Résumé : | La reconnaissance d’entités nommées est une composante essentielle du traitement
(bio)médical du langage naturel, permettant l’extraction d’informations et la découverte de
connaissances à partir de textes. Généralement, les études réalisées concernant l’extraction de
l’information (bio)médicale ont été développées en anglais et dans certaines langues. Cependant,
aucune étude n’a été développée en langue arabe. Pour cela, la langue arabe doit effectuer plus de
recherches dans ce domaine et par conséquent nous avons introduit une approche d’extraction
d’informations psychologiques. Cette recherche consiste en la reconnaissance des entités
psychologiques et l’extraction des relations à partir du texte. Deux techniques ont été appliquées pour
le processus de reconnaissance : la première condition préalable à la technique dépendait entièrement
de l’identification directe avec l’utilisation des Gazetteers et la deuxième technique est un modèle basé
sur des règles dans lequel les techniques sont construites sur la base des nomenclatures. Les
expériences donnent F-mesure globales de 86, 407%. Et pour lier les NERs psychologique, nous avons
intégré une formulation de programmation linéaire. Au meilleur de nos connaissances, c’est la
première approche sur l’extraction d’information psychologique pour inclure dans l’état de l’art des
travaux effectués en la langue arabe.
Named entity recognition is a crucial component of (bio)medical natural language
processing, enabling information extraction and knowledge discovery from text. Generally, the
achieved studies concerning the (bio)medical information extraction were developed in English and
some languages. However, there is no study that was developed in the Arabic language. For this, the
Arabic Language needs to perform more researches in this area and hence we introduced a
Psychological information extraction approach. This research consists of psychological entities
recognition and Relation Extraction from the text. Two techniques were applied for the recognition
processes: the first requirement prior to the technique was completely dependent on direct
identification with the utilization of gazetteers and the second technique is a rule-based model in
which rules are techniques were put constructed on the basis of a gazetteers list. Experiments yield the
overall F–measure values of 86,407%. And for joint Psychological NER we integrate a Linear
Programming Formulation. On the best of our knowledge, this is the first approach on psychological
information Extraction to include the state of the work done for Arabic language.
یعتبر التعرف على الكیانات المسماة مكونا أساسیا في معالجة اللغة الطبیعیة الطبیة (الحیویة) ، مما یتیح
استخراج المعلومات واكتشاف المعرفة من النص. عموما، تم تطویر الدراسات التي تم التوصل إلیھا بشأن استخراج
المعلومات الطبیة (الحیویة) باللغة الإنجلیزیة وبعض اللغات الأخرى. ومع ذلك، لا توجد أي دراسة تم تطویرھا
باللغة العربیة. لھذا، یجب أن تكون اللغة العربیة أكثر فاعلیة في ھذا المجال، ومن ثم فإننا أدرجنا نھج استخراج
المعلومات النفسیة. ھذا البحث یھتم بالتعرف على الكیانات النفسیة واستخراج العلاقات من النص. طبُقت اثنین من التقنیات
لعملیة الاعتراف: فالمتطلب الأول ھو أن التقنیة تعتمد بشكل كامل على التحدید المباشر لاستخدام قوائم مصطلحات والتقنیة
الثانیة ھي نموذج قائم على القواعد حیث تم فیھ وضع القواعد على أساس قائمة المعاجم. تنتج عن التجارب القیمة
الإجمالیة % 86,407 . و من أجل وصل المصطلحات النفسیة، قمنا بإدماج البرمجة الخطیة. على حد علمنا، ھذا
ھو النھج الأول الذي یھتم باستخراج المعلومات النفسیة. و ذلك من أجل ضمھ إلى ما تم إجراؤه للغة العربیة. | Directeur de thèse : | BENDELLA Fatima |
|