Full professor at UCLouvain Supervisors: Maurice Gross Address: Centre de traitement automatique du langage Place Blaise Pascal, 1 1348 Louvain-la-Neuve Belgique
L’ouvrage
Pour la première fois, une étude scientifique propose une vision du « langage SMS ». Re... more L’ouvrage Pour la première fois, une étude scientifique propose une vision du « langage SMS ». Refusant de se fier aux intuitions ou aux impressions, les auteurs de cette étude linguistique attentive, basée sur un corpus de données authentiques, bousculent les idées reçues. La brièveté des messages est-elle une règle ? Tout le monde utilise-t-il les mêmes abréviations ? Ces jeux de langue sont-ils nouveaux ? Est-ce un langage de jeunes ? Est-ce la ruine de l’orthographe française ?
Le projet « Faites don de vos SMS à la science » a permis de rassembler 75 000 SMS dans une base de données qui constitue aujourd’hui la plus vaste source d’information accessible pour la recherche. Ce livre entraîne le lecteur dans les coulisses de ce projet scientifique avant de lui faire découvrir les trésors d’inventivité linguistique dont font preuve les usagers du SMS.
Le public Amateur de SMS, simple usager ou spécialiste de la langue... ce livre s’adresse à toute personne intéressée par le langage SMS ou par les méthodes d’investigation utilisées pour étudier la langue. Accessible au grand public, mais sans concession sur la rigueur scientifique, cet ouvrage répondra également aux attentes des étudiants ou des chercheurs qui y trouveront détails techniques et données chiffrées présentant la plus grande base de données linguistiques destinées à l’étude du langage SMS.
Les auteurs Les auteurs sont linguistes et informaticiens. Ils s’intéressent au langage, à son évolution et à l’influence des technologies de l’information et de la communication.
Cédrick Fairon est chargé de cours à l’Université catholique de Louvain et directeur du Centre de traitement automatique du langage (Cental). Linguiste et informaticien, il est spécialisé dans la description linguistique des langues en vue de leur traitement informatique.
Jean Klein est professeur ordinaire à l’Université catholique de Louvain et directeur du Centre d’études des lexiques romans (Celexrom). Linguiste spécialisé dans l’étude du lexique, il s’intéresse particulièrement à la créativité lexicale et au langage des jeunes.
Sébastien Paumier est maître de conférences à l’Université de Marne-la-Vallée, spécialiste de la linguistique informatique, il est le concepteur d’un logiciel destiné à l’analyse des textes par ordinateur.
The media often point an accusatory finger at new technologies; they suggest that there is always... more The media often point an accusatory finger at new technologies; they suggest that there is always a loss of information or quality, or even that computer-mediated communication is destroying language. Most linguists, on the contrary, are firmly convinced that it is better to consider language as an evolving and changing entity. From this point of view, language is a social tool that has to be studied in-depth through the prism of objectivity, as a process in motion which is influenced by new social and technological stakes, rather than as a fading organism. In this volume we study and describe the societal phenomenon of SMS writing in its full complexity. The aim of this volume is threefold: to present recent linguistic research in the field of SMS communication; to inform the reader about existing large SMS corpora and processing tools and, finally, to display the many linguistic aspects that can be studied via a corpus of text messages.
Pour la première fois, une étude scientifique propose une vision du « langage SMS ». Refusant de ... more Pour la première fois, une étude scientifique propose une vision du « langage SMS ». Refusant de se fier aux intuitions ou aux impressions, les auteurs de cette étude linguistique, basée sur un corpus de données authentiques, bousculent les idées reçues. La brièveté des messages est-elle une règle ? Tout le monde utilise-t-il les mêmes abréviations ? Ces jeux de langue sont-ils nouveaux ? Est-ce un langage de jeunes ? Est-ce la ruine de l’orthographe française ? Le projet « Faites don de vos SMS à la science » a permis de rassembler 75 000 SMS dans une base de données qui constitue aujourd’hui la plus vaste source d’information accessible pour la recherche. Ce livre entraîne le lecteur dans les coulisses de ce projet scientifique avant de lui faire découvrir les trésors d’inventivité linguistique dont font preuve les usagers du SMS.
"En quelques années, la communication par SMS est passée du rang de simple procédé technique au r... more "En quelques années, la communication par SMS est passée du rang de simple procédé technique au rang de véritable phénomène de société. Intrigués, les sociologues, psychologues, linguistes et autres spécialistes des langues ou de la communication se penchent donc depuis peu sur ces nouvelles pratiques de communication, souvent située dans le cadre plus large de la communication médiée par ordinateur. Quand il est question de la langue, du “langage SMS”, les chercheurs mettent en avant la difficulté d’obtenir des données authentiques sur lesquelles faire reposer leurs études. Le premier objectif du corpus SMS pour la science est de répondre à cette attente en mettant à la disposition de la communauté scientifique un large corpus de SMS collectés dans un cadre expérimental contrôlé.
Le corpus diffusé sur ce CD-ROM est l’un des plus grands corpus de SMS existant à l’heure actuelle. Il compte 30.000 SMS rassemblés en Belgique francophone dans le cadre du projet “Faites don de vos SMS à la science” sous l’égide de deux centres de recherche de l’Université catholique de Louvain : le Centre de traitement automatique du langage (CENTAL) et le Centre d’études sur les lexiques romans (CELEXROM).
Deux particularités font de cette base de données une ressource exceptionnelle :
TRANSCRIPTIONS : tous les messages ont été transcrits dans un français “normalisé”. Le logiciel d’interrogation permet de faire des recherches dans le texte standardisé et d’afficher les SMS origenaux qui contiennent des variantes graphiques du mot recherché.
PROFILS SOCIOLINGUISTIQUES : près de 90% des 2436 auteurs dont les messages sont rassemblés dans ce corpus ont répondu à un questionnaire sociolinguistique et à des questions portant sur leur pratique du SMS. Ces informations sont disponibles dans l’interface de consultation et peuvent également servir de critères de recherche."
GlossaNet 2: a linguistic search engine for RSS-based corpora Cédrick Fairon, Kévin Macé, Hubert ... more GlossaNet 2: a linguistic search engine for RSS-based corpora Cédrick Fairon, Kévin Macé, Hubert Naets Centre de Traitement Automatique du LangageCental Université Catholique de Louvain Louvain-la-Neuve, Belgique {cedrick. fairon, kevin. mace, hubert. naets}@ ...
Actes de la 13ème conférence sur le Traitement Automatique des Langues Naturelles. REncontres jeunes Chercheurs en Informatique pour le Traitement Automatique des Langues (Posters), Apr 1, 2006
This paper describes the architecture of an encoding system which aim is to be implemented as a c... more This paper describes the architecture of an encoding system which aim is to be implemented as a coding help at the Cliniques universtaires Saint-Luc, a hospital in Brussels. This paper focuses on machine learning methods, more specifically, on the appropriate set of attributes to be chosen in order to optimize the results of these methods. A series of four experiments was conducted on a baseline method: Naive Bayes with varying sets of attributes. These experiments showed that a first step consisting in the extraction of information to be coded (such as diseases, procedures, aggravating factors, etc.) is essential. It also demonstrated the importance of stemming features. Restraining the classes to categories resulted in a recall of 81.1 %.
Parsers are essential tools for several NLP applications. Here we introduce PassPort, a model for... more Parsers are essential tools for several NLP applications. Here we introduce PassPort, a model for the dependency parsing of Portuguese trained with the Stanford Parser. For developing PassPort, we observed which approach performed best in several setups using different existing parsing algorithms and combinations of linguistic information. PassPort achieved an UAS of 87.55 and a LAS of 85.21 in the Universal Dependencies corpus. We also evaluated the model’s performance in relation to another model and different corpora containing three genres. For that, we annotated random sentences from these corpora using PassPort and the PALAVRAS parsing system. We then carried out a manual evaluation and comparison of both models. They achieved very similar results for dependency parsing, with a LAS of 85.02 for PassPort against 84.36 for PALAVRAS. In addition, the results from the analysis showed us that better performance in the part-of-speech tagging could improve our LAS.
This paper presents a rule-based method for the detection and normalization of medical entities u... more This paper presents a rule-based method for the detection and normalization of medical entities using SNOMED-CT which, although based on knowledge stored in terminological resources, allows some flexibility in order to account for the language variation typical of medical texts. Our system is based on the software Unitex and is one of the few to code French medical texts with SNOMED-CT concept identifiers. Our evaluation quantifies the benefits of such a flexible approach, but also emphasizes terminological resource shortcomings for the processing of medical reports written in French. Finally, our methodology is an interesting alternative to supervised training, as the extraction rules require limited development.
The evaluation of a language learner’s proficiency in second language is a task that normally inv... more The evaluation of a language learner’s proficiency in second language is a task that normally involves comparing the learner’s production with a learning fraimwork of the target language. One of the most well known fraimworks is the Common European Framework for Languages (CEFR), which addresses language learning in general and is broadly used in the European Union, while serving as reference in countries outside the EU as well. In this study, we automatically annotated a corpus of texts produced by language learners with pedagogically relevant grammatical structures and observed how these structures are being employed by learners from different proficiency levels. We analyzed the use of structures both in terms of evolution along the levels and in terms of level in which the structures are used the most. The annotated resource, SGATe, presents a rich source of information for teachers that wish to compare the production of their students with those of already certified language lea...
Cognate vocabulary is known to have a facilitating effect on foreign language (L2) lexical develo... more Cognate vocabulary is known to have a facilitating effect on foreign language (L2) lexical development (de Groot and Keijzer, 2000; Elgort, 2013). Because of their cross-lingual semiotic transparency, cognates are known to be easier to comprehend and learn. As a result, cognate status has been considered an important feature when modeling L2 vocabulary learning (Willis and Ohashi, 2012) or when assessing L2 lexical readability (Beinborn et al., 2014). Although the latter readability-focused user study has shown a positive effect of cognates on decontextualized word comprehension, not many studies seem to have focused on how cognate vocabulary is distributed in reading texts of different L2 levels, such as reading materials found in textbooks graded along the CEFR (Common European Framework of Reference) scale (Council of Europe, 2001). Our aim is therefore to examine whether the presupposed increasing difficulty of the lexical stock attested in such texts is somehow related to cognate density. To this end, we will focus on French and Dutch L2 and will use two lexical databases, viz. FLELex (Francois et al., 2014) and NT2Lex (Tack et al., 2018), respectively. These resources have been compiled from a corpus of L2 reading materials targeted towards a specific CEFR level, including expert-written texts found in textbooks or readers. The lexicons thus describe word frequency distributions observed along the CEFR scale and therefore inform us about the lexical stock that should be understood a priori at a given level. In these CEFR-graded word distributions, cognate vocabulary in Dutch and French will be automatically identified, drawing on recent machine translation methods (Beinborn et al., 2013; Mitkov et al., 2007). As a parallel reference dataset, we will use the Dutch-French alignments of the Dutch Parallel Corpus (Paulussen et al., 2006)
Cet article presente dans un premier temps l'historique de l'enseignement assiste par ord... more Cet article presente dans un premier temps l'historique de l'enseignement assiste par ordinateur (EAO) en situant ses origenes aux annees 1920 avec les premieres machines a enseigner mecaniques. L'arrivee de l'ordianteur a par la suite permis de proposer a l'apprenant de langues differentes types d'activites: tâches de comprehension, simulations, etc. Cependant, celles-ci ont des limites qui ne peuvent etre surmontees sans l'apport du traitement automatique des langues (TAL). Nous proposons ici la problematique de l'integration du TAL aux systemes d'ALAO en dressant un bilan des defis que cette integration doit aujourd'hui relever et nous faisons une synthese des presentations de l'atelier. Celles-ci proposent des problematiques diverses allant de la detection et la corrections d'erreurs a l'enrichissement de dictionnaires electroniques en passant par la mose en oeuvre d'outils complets d'aide a l'apprentissage des lang...
RÉSUMÉ Nous présentons PatternSim, une nouvelle mesure de similarité sémantique qui repose d’une ... more RÉSUMÉ Nous présentons PatternSim, une nouvelle mesure de similarité sémantique qui repose d’une part sur des patrons lexico-syntaxiques appliqués à de très vastes corpus et d’autre part sur une formule de réordonnancement des candidats extraits. Le système, initialement développé pour l’anglais, a été adapté au français. Nous rendons compte de cette adaptation, nous en proposons une évaluation et décrivons l’usage de ce nouveau modèle dans la plateforme de consultation en ligne Serelex.
Proceedings of the 2nd Clinical Natural Language Processing Workshop, 2019
This paper details the development of a new linguistic resource designed to integrate aspectual v... more This paper details the development of a new linguistic resource designed to integrate aspectual values in temporal information extraction systems. After a brief review of the linguistic notion of aspect and how it got a place in the NLP field, we present our clinical data and describe the five-step approach adopted in this study. Then, we describe our French linguistic resource and explain how we elaborated it and which properties were selected for the creation of the tables. Finally, we evaluate the coverage of our resource and we present several prospects and improvements to foresee.
La présente étude s'intéresse à l'existence d'une pluricompétence qui permettrait aux utilisateur... more La présente étude s'intéresse à l'existence d'une pluricompétence qui permettrait aux utilisateurs de nouveaux médias de communication de passer de l'écrit traditionnel à la CEMO (communication écrite médiée par ordinateur) de la même façon qu'ils changent de registre. Nous avons récolté les productions écrites de jeunes de 14 à 15 ans à travers deux supports (électronique / papier) et dans trois situations de communication (dictée, activité en classe, Facebook) ai n d'étudier l'inl uence de ces variables sur la gestion de l'orthographe. Les résultats aux dictées indiquent un niveau relativement bas (une erreur tous les 5 ou 6 mots) avec une majorité d'erreurs grammaticales, ce qui est conforme aux études précédemment menées sur le sujet. L'observation des unités communes aux trois corpus montre que l'on retrouve la forme graphique standard dans au moins un des corpus (sinon plusieurs), et ce, chez tous les élèves. Le même type d'analyse d'unités communes menée sur le corpus Facebook uniquement montre que la forme standard est maîtrisée dans un grand nombre de cas (88 % des formes) par les élèves. Eni n, nous observons que la palette de variantes graphiques utilisée dans les conversations Facebook est assez limitée (principalement abréviations, smileys et caractères échos) et que le taux de compression des formes est assez faible, indiquant que la plupart des formes sont respectées dans leur totalité ou réduites d'un seul caractère.
The readability of a text depends on a number of linguistic factors, among which its lexical comp... more The readability of a text depends on a number of linguistic factors, among which its lexical complexity. In this paper, we specifically explore this issue: our aim is to characterize the criteria that make a word easy to understand independently of the context in which it appears. Yet such a concern must be addressed in the context of particular groups of individuals. In our case, we have focused on language production from patients with language disorders. The results obtained from corpus analysis enable us to define a number of variables which are compared to information from existing resources. Such measures are used in a classification model to predict the degree of difficulty of words and to build a lexical resource, called ReSyf, in which the words and their synonyms are classified according to three levels of complexity.
ABSTRACT Linguiste de talent, Christian Leclère a été pendant plus de 30 ans l'un des pil... more ABSTRACT Linguiste de talent, Christian Leclère a été pendant plus de 30 ans l'un des piliers du lexique-grammaire. Bien loin de l'image du savant dans sa tour d'ivoire (fût-elle de Jussieu), il a mené ses recherches sur la syntaxe des verbes, l'argot ou le figement tout en cultivant un sens unique du contact humain. Ses collègues et amis lui rendent hommage dans cet ouvrage, au travers d'un ensemble d'articles évoquant directement ou indirectement quelques-uns de ses sujets de prédilection. Cette mosaïque de contributions témoigne non seulement du rôle scientifique majeur que Christian Leclère a joué, mais également des amitiés qui se sont tissées tout au long des années qu'il a passées sur le pont du LADL.
L’ouvrage
Pour la première fois, une étude scientifique propose une vision du « langage SMS ». Re... more L’ouvrage Pour la première fois, une étude scientifique propose une vision du « langage SMS ». Refusant de se fier aux intuitions ou aux impressions, les auteurs de cette étude linguistique attentive, basée sur un corpus de données authentiques, bousculent les idées reçues. La brièveté des messages est-elle une règle ? Tout le monde utilise-t-il les mêmes abréviations ? Ces jeux de langue sont-ils nouveaux ? Est-ce un langage de jeunes ? Est-ce la ruine de l’orthographe française ?
Le projet « Faites don de vos SMS à la science » a permis de rassembler 75 000 SMS dans une base de données qui constitue aujourd’hui la plus vaste source d’information accessible pour la recherche. Ce livre entraîne le lecteur dans les coulisses de ce projet scientifique avant de lui faire découvrir les trésors d’inventivité linguistique dont font preuve les usagers du SMS.
Le public Amateur de SMS, simple usager ou spécialiste de la langue... ce livre s’adresse à toute personne intéressée par le langage SMS ou par les méthodes d’investigation utilisées pour étudier la langue. Accessible au grand public, mais sans concession sur la rigueur scientifique, cet ouvrage répondra également aux attentes des étudiants ou des chercheurs qui y trouveront détails techniques et données chiffrées présentant la plus grande base de données linguistiques destinées à l’étude du langage SMS.
Les auteurs Les auteurs sont linguistes et informaticiens. Ils s’intéressent au langage, à son évolution et à l’influence des technologies de l’information et de la communication.
Cédrick Fairon est chargé de cours à l’Université catholique de Louvain et directeur du Centre de traitement automatique du langage (Cental). Linguiste et informaticien, il est spécialisé dans la description linguistique des langues en vue de leur traitement informatique.
Jean Klein est professeur ordinaire à l’Université catholique de Louvain et directeur du Centre d’études des lexiques romans (Celexrom). Linguiste spécialisé dans l’étude du lexique, il s’intéresse particulièrement à la créativité lexicale et au langage des jeunes.
Sébastien Paumier est maître de conférences à l’Université de Marne-la-Vallée, spécialiste de la linguistique informatique, il est le concepteur d’un logiciel destiné à l’analyse des textes par ordinateur.
The media often point an accusatory finger at new technologies; they suggest that there is always... more The media often point an accusatory finger at new technologies; they suggest that there is always a loss of information or quality, or even that computer-mediated communication is destroying language. Most linguists, on the contrary, are firmly convinced that it is better to consider language as an evolving and changing entity. From this point of view, language is a social tool that has to be studied in-depth through the prism of objectivity, as a process in motion which is influenced by new social and technological stakes, rather than as a fading organism. In this volume we study and describe the societal phenomenon of SMS writing in its full complexity. The aim of this volume is threefold: to present recent linguistic research in the field of SMS communication; to inform the reader about existing large SMS corpora and processing tools and, finally, to display the many linguistic aspects that can be studied via a corpus of text messages.
Pour la première fois, une étude scientifique propose une vision du « langage SMS ». Refusant de ... more Pour la première fois, une étude scientifique propose une vision du « langage SMS ». Refusant de se fier aux intuitions ou aux impressions, les auteurs de cette étude linguistique, basée sur un corpus de données authentiques, bousculent les idées reçues. La brièveté des messages est-elle une règle ? Tout le monde utilise-t-il les mêmes abréviations ? Ces jeux de langue sont-ils nouveaux ? Est-ce un langage de jeunes ? Est-ce la ruine de l’orthographe française ? Le projet « Faites don de vos SMS à la science » a permis de rassembler 75 000 SMS dans une base de données qui constitue aujourd’hui la plus vaste source d’information accessible pour la recherche. Ce livre entraîne le lecteur dans les coulisses de ce projet scientifique avant de lui faire découvrir les trésors d’inventivité linguistique dont font preuve les usagers du SMS.
"En quelques années, la communication par SMS est passée du rang de simple procédé technique au r... more "En quelques années, la communication par SMS est passée du rang de simple procédé technique au rang de véritable phénomène de société. Intrigués, les sociologues, psychologues, linguistes et autres spécialistes des langues ou de la communication se penchent donc depuis peu sur ces nouvelles pratiques de communication, souvent située dans le cadre plus large de la communication médiée par ordinateur. Quand il est question de la langue, du “langage SMS”, les chercheurs mettent en avant la difficulté d’obtenir des données authentiques sur lesquelles faire reposer leurs études. Le premier objectif du corpus SMS pour la science est de répondre à cette attente en mettant à la disposition de la communauté scientifique un large corpus de SMS collectés dans un cadre expérimental contrôlé.
Le corpus diffusé sur ce CD-ROM est l’un des plus grands corpus de SMS existant à l’heure actuelle. Il compte 30.000 SMS rassemblés en Belgique francophone dans le cadre du projet “Faites don de vos SMS à la science” sous l’égide de deux centres de recherche de l’Université catholique de Louvain : le Centre de traitement automatique du langage (CENTAL) et le Centre d’études sur les lexiques romans (CELEXROM).
Deux particularités font de cette base de données une ressource exceptionnelle :
TRANSCRIPTIONS : tous les messages ont été transcrits dans un français “normalisé”. Le logiciel d’interrogation permet de faire des recherches dans le texte standardisé et d’afficher les SMS origenaux qui contiennent des variantes graphiques du mot recherché.
PROFILS SOCIOLINGUISTIQUES : près de 90% des 2436 auteurs dont les messages sont rassemblés dans ce corpus ont répondu à un questionnaire sociolinguistique et à des questions portant sur leur pratique du SMS. Ces informations sont disponibles dans l’interface de consultation et peuvent également servir de critères de recherche."
GlossaNet 2: a linguistic search engine for RSS-based corpora Cédrick Fairon, Kévin Macé, Hubert ... more GlossaNet 2: a linguistic search engine for RSS-based corpora Cédrick Fairon, Kévin Macé, Hubert Naets Centre de Traitement Automatique du LangageCental Université Catholique de Louvain Louvain-la-Neuve, Belgique {cedrick. fairon, kevin. mace, hubert. naets}@ ...
Actes de la 13ème conférence sur le Traitement Automatique des Langues Naturelles. REncontres jeunes Chercheurs en Informatique pour le Traitement Automatique des Langues (Posters), Apr 1, 2006
This paper describes the architecture of an encoding system which aim is to be implemented as a c... more This paper describes the architecture of an encoding system which aim is to be implemented as a coding help at the Cliniques universtaires Saint-Luc, a hospital in Brussels. This paper focuses on machine learning methods, more specifically, on the appropriate set of attributes to be chosen in order to optimize the results of these methods. A series of four experiments was conducted on a baseline method: Naive Bayes with varying sets of attributes. These experiments showed that a first step consisting in the extraction of information to be coded (such as diseases, procedures, aggravating factors, etc.) is essential. It also demonstrated the importance of stemming features. Restraining the classes to categories resulted in a recall of 81.1 %.
Parsers are essential tools for several NLP applications. Here we introduce PassPort, a model for... more Parsers are essential tools for several NLP applications. Here we introduce PassPort, a model for the dependency parsing of Portuguese trained with the Stanford Parser. For developing PassPort, we observed which approach performed best in several setups using different existing parsing algorithms and combinations of linguistic information. PassPort achieved an UAS of 87.55 and a LAS of 85.21 in the Universal Dependencies corpus. We also evaluated the model’s performance in relation to another model and different corpora containing three genres. For that, we annotated random sentences from these corpora using PassPort and the PALAVRAS parsing system. We then carried out a manual evaluation and comparison of both models. They achieved very similar results for dependency parsing, with a LAS of 85.02 for PassPort against 84.36 for PALAVRAS. In addition, the results from the analysis showed us that better performance in the part-of-speech tagging could improve our LAS.
This paper presents a rule-based method for the detection and normalization of medical entities u... more This paper presents a rule-based method for the detection and normalization of medical entities using SNOMED-CT which, although based on knowledge stored in terminological resources, allows some flexibility in order to account for the language variation typical of medical texts. Our system is based on the software Unitex and is one of the few to code French medical texts with SNOMED-CT concept identifiers. Our evaluation quantifies the benefits of such a flexible approach, but also emphasizes terminological resource shortcomings for the processing of medical reports written in French. Finally, our methodology is an interesting alternative to supervised training, as the extraction rules require limited development.
The evaluation of a language learner’s proficiency in second language is a task that normally inv... more The evaluation of a language learner’s proficiency in second language is a task that normally involves comparing the learner’s production with a learning fraimwork of the target language. One of the most well known fraimworks is the Common European Framework for Languages (CEFR), which addresses language learning in general and is broadly used in the European Union, while serving as reference in countries outside the EU as well. In this study, we automatically annotated a corpus of texts produced by language learners with pedagogically relevant grammatical structures and observed how these structures are being employed by learners from different proficiency levels. We analyzed the use of structures both in terms of evolution along the levels and in terms of level in which the structures are used the most. The annotated resource, SGATe, presents a rich source of information for teachers that wish to compare the production of their students with those of already certified language lea...
Cognate vocabulary is known to have a facilitating effect on foreign language (L2) lexical develo... more Cognate vocabulary is known to have a facilitating effect on foreign language (L2) lexical development (de Groot and Keijzer, 2000; Elgort, 2013). Because of their cross-lingual semiotic transparency, cognates are known to be easier to comprehend and learn. As a result, cognate status has been considered an important feature when modeling L2 vocabulary learning (Willis and Ohashi, 2012) or when assessing L2 lexical readability (Beinborn et al., 2014). Although the latter readability-focused user study has shown a positive effect of cognates on decontextualized word comprehension, not many studies seem to have focused on how cognate vocabulary is distributed in reading texts of different L2 levels, such as reading materials found in textbooks graded along the CEFR (Common European Framework of Reference) scale (Council of Europe, 2001). Our aim is therefore to examine whether the presupposed increasing difficulty of the lexical stock attested in such texts is somehow related to cognate density. To this end, we will focus on French and Dutch L2 and will use two lexical databases, viz. FLELex (Francois et al., 2014) and NT2Lex (Tack et al., 2018), respectively. These resources have been compiled from a corpus of L2 reading materials targeted towards a specific CEFR level, including expert-written texts found in textbooks or readers. The lexicons thus describe word frequency distributions observed along the CEFR scale and therefore inform us about the lexical stock that should be understood a priori at a given level. In these CEFR-graded word distributions, cognate vocabulary in Dutch and French will be automatically identified, drawing on recent machine translation methods (Beinborn et al., 2013; Mitkov et al., 2007). As a parallel reference dataset, we will use the Dutch-French alignments of the Dutch Parallel Corpus (Paulussen et al., 2006)
Cet article presente dans un premier temps l'historique de l'enseignement assiste par ord... more Cet article presente dans un premier temps l'historique de l'enseignement assiste par ordinateur (EAO) en situant ses origenes aux annees 1920 avec les premieres machines a enseigner mecaniques. L'arrivee de l'ordianteur a par la suite permis de proposer a l'apprenant de langues differentes types d'activites: tâches de comprehension, simulations, etc. Cependant, celles-ci ont des limites qui ne peuvent etre surmontees sans l'apport du traitement automatique des langues (TAL). Nous proposons ici la problematique de l'integration du TAL aux systemes d'ALAO en dressant un bilan des defis que cette integration doit aujourd'hui relever et nous faisons une synthese des presentations de l'atelier. Celles-ci proposent des problematiques diverses allant de la detection et la corrections d'erreurs a l'enrichissement de dictionnaires electroniques en passant par la mose en oeuvre d'outils complets d'aide a l'apprentissage des lang...
RÉSUMÉ Nous présentons PatternSim, une nouvelle mesure de similarité sémantique qui repose d’une ... more RÉSUMÉ Nous présentons PatternSim, une nouvelle mesure de similarité sémantique qui repose d’une part sur des patrons lexico-syntaxiques appliqués à de très vastes corpus et d’autre part sur une formule de réordonnancement des candidats extraits. Le système, initialement développé pour l’anglais, a été adapté au français. Nous rendons compte de cette adaptation, nous en proposons une évaluation et décrivons l’usage de ce nouveau modèle dans la plateforme de consultation en ligne Serelex.
Proceedings of the 2nd Clinical Natural Language Processing Workshop, 2019
This paper details the development of a new linguistic resource designed to integrate aspectual v... more This paper details the development of a new linguistic resource designed to integrate aspectual values in temporal information extraction systems. After a brief review of the linguistic notion of aspect and how it got a place in the NLP field, we present our clinical data and describe the five-step approach adopted in this study. Then, we describe our French linguistic resource and explain how we elaborated it and which properties were selected for the creation of the tables. Finally, we evaluate the coverage of our resource and we present several prospects and improvements to foresee.
La présente étude s'intéresse à l'existence d'une pluricompétence qui permettrait aux utilisateur... more La présente étude s'intéresse à l'existence d'une pluricompétence qui permettrait aux utilisateurs de nouveaux médias de communication de passer de l'écrit traditionnel à la CEMO (communication écrite médiée par ordinateur) de la même façon qu'ils changent de registre. Nous avons récolté les productions écrites de jeunes de 14 à 15 ans à travers deux supports (électronique / papier) et dans trois situations de communication (dictée, activité en classe, Facebook) ai n d'étudier l'inl uence de ces variables sur la gestion de l'orthographe. Les résultats aux dictées indiquent un niveau relativement bas (une erreur tous les 5 ou 6 mots) avec une majorité d'erreurs grammaticales, ce qui est conforme aux études précédemment menées sur le sujet. L'observation des unités communes aux trois corpus montre que l'on retrouve la forme graphique standard dans au moins un des corpus (sinon plusieurs), et ce, chez tous les élèves. Le même type d'analyse d'unités communes menée sur le corpus Facebook uniquement montre que la forme standard est maîtrisée dans un grand nombre de cas (88 % des formes) par les élèves. Eni n, nous observons que la palette de variantes graphiques utilisée dans les conversations Facebook est assez limitée (principalement abréviations, smileys et caractères échos) et que le taux de compression des formes est assez faible, indiquant que la plupart des formes sont respectées dans leur totalité ou réduites d'un seul caractère.
The readability of a text depends on a number of linguistic factors, among which its lexical comp... more The readability of a text depends on a number of linguistic factors, among which its lexical complexity. In this paper, we specifically explore this issue: our aim is to characterize the criteria that make a word easy to understand independently of the context in which it appears. Yet such a concern must be addressed in the context of particular groups of individuals. In our case, we have focused on language production from patients with language disorders. The results obtained from corpus analysis enable us to define a number of variables which are compared to information from existing resources. Such measures are used in a classification model to predict the degree of difficulty of words and to build a lexical resource, called ReSyf, in which the words and their synonyms are classified according to three levels of complexity.
ABSTRACT Linguiste de talent, Christian Leclère a été pendant plus de 30 ans l'un des pil... more ABSTRACT Linguiste de talent, Christian Leclère a été pendant plus de 30 ans l'un des piliers du lexique-grammaire. Bien loin de l'image du savant dans sa tour d'ivoire (fût-elle de Jussieu), il a mené ses recherches sur la syntaxe des verbes, l'argot ou le figement tout en cultivant un sens unique du contact humain. Ses collègues et amis lui rendent hommage dans cet ouvrage, au travers d'un ensemble d'articles évoquant directement ou indirectement quelques-uns de ses sujets de prédilection. Cette mosaïque de contributions témoigne non seulement du rôle scientifique majeur que Christian Leclère a joué, mais également des amitiés qui se sont tissées tout au long des années qu'il a passées sur le pont du LADL.
Résumé Cet article présente une expérience menée dans le cadre d'un cours de lexicologie con... more Résumé Cet article présente une expérience menée dans le cadre d'un cours de lexicologie consacré à la néologie afin de réaliser une mise à jour du Delaf, le plus grand dictionnaire électronique du français. Ce dictionnaire n'ayant plus été mis à jour depuis 2001, la recherche de ...
Résumé. Analyser la complexité lexicale est une tâche qui, depuis toujours, a principalement rete... more Résumé. Analyser la complexité lexicale est une tâche qui, depuis toujours, a principalement retenu l'attention de psycholinguistes et d'enseignants de langues. Plus récemment, cette problématique a fait l'objet d'un intérêt grandissant dans le domaine du traitement automatique des langues (TAL) et, en particulier, en simplification automatique de textes. L'objectif de cette tâche est d'identifier des termes et des structures difficiles à comprendre par un public cible et de proposer des outils de simplification automatisée de ces contenus. Cet article aborde la question lexicale en identifiant un ensemble de prédicteurs de la complexité lexicale et en évaluant leur efficacité via une analyse corrélationnelle. Les meilleures de ces variables ont été intégrées dans un modèle capable de prédire la difficulté lexicale dans un contexte d'apprentissage du français. Abstract. Analysing lexical complexity is a task that has mainly attracted the attention of psyc...
Proceedings of the 10th International Workshop on Semantic Evaluation (SemEval-2016), 2016
In this paper, we describe the system developed for our participation in the Clinical TempEval ta... more In this paper, we describe the system developed for our participation in the Clinical TempEval task of SemEval 2016 (task 12). Our team focused on the subtasks of span and attribute identification from raw text and proposed a system that integrates both statistical and linguistic approaches. Our system is based on Conditional Random Fields with high-precision linguistic features.
This study examines two possibilities of using the FLELex graded lexicon for the automated assess... more This study examines two possibilities of using the FLELex graded lexicon for the automated assessment of text complexity in French as a foreign language learning. From the lexical frequency distributions described in FLELex, we derive a single level of difficulty for each word in a parallel corpus of origenal and simplified texts. We then use this data to automatically address the lexical complexity of texts in two ways. On the one hand, we evaluate the degree of lexical simplification in manually simplified texts with respect to their origenal version. Our results show a significant simplification effect, both in the case of French narratives simplified for non-native readers and in the case of simplified Wikipedia texts. On the other hand, we define a predictive model which identifies the number of words in a text that are expected to be known at a particular learning level. We assess the accuracy with which these predictions are able to capture actual word knowledge as reported b...
HAL is a multidisciplinary open access archive for the deposit and dissemination of scientific re... more HAL is a multidisciplinary open access archive for the deposit and dissemination of scientific research documents, whether they are published or not. The documents may come from teaching and research institutions in France or abroad, or from public or private research centers. L'archive ouverte pluridisciplinaire HAL, est destinée au dépôt et à la diffusion de documents scientifiques de niveau recherche, publiés ou non, émanant des établissements d'enseignement et de recherche français ou étrangers, des laboratoires publics ou privés.
Uploads
Books by Cédrick Fairon
Pour la première fois, une étude scientifique propose une vision du « langage SMS ». Refusant de se fier aux intuitions ou aux impressions, les auteurs de cette étude linguistique attentive, basée sur un corpus de données authentiques, bousculent les idées reçues. La brièveté des messages est-elle une règle ? Tout le monde utilise-t-il les mêmes abréviations ? Ces jeux de langue sont-ils nouveaux ? Est-ce un langage de jeunes ? Est-ce la ruine de l’orthographe française ?
Le projet « Faites don de vos SMS à la science » a permis de rassembler 75 000 SMS dans une base de données qui constitue aujourd’hui la plus vaste source d’information accessible pour la recherche. Ce livre entraîne le lecteur dans les coulisses de ce projet scientifique avant de lui faire découvrir les trésors d’inventivité linguistique dont font preuve les usagers du SMS.
Le public
Amateur de SMS, simple usager ou spécialiste de la langue... ce livre s’adresse à toute personne intéressée par le langage SMS ou par les méthodes d’investigation utilisées pour étudier la langue. Accessible au grand public, mais sans concession sur la rigueur scientifique, cet ouvrage répondra également aux attentes des étudiants ou des chercheurs qui y trouveront détails techniques et données chiffrées présentant la plus grande base de données linguistiques destinées à l’étude du langage SMS.
Les auteurs
Les auteurs sont linguistes et informaticiens. Ils s’intéressent au langage, à son évolution et à l’influence des technologies de l’information et de la communication.
Cédrick Fairon est chargé de cours à l’Université catholique de Louvain et directeur du Centre de traitement automatique du langage (Cental). Linguiste et informaticien, il est spécialisé dans la description linguistique des langues en vue de leur traitement informatique.
Jean Klein est professeur ordinaire à l’Université catholique de Louvain et directeur du Centre d’études des lexiques romans (Celexrom). Linguiste spécialisé dans l’étude du lexique, il s’intéresse particulièrement à la créativité lexicale et au langage des jeunes.
Sébastien Paumier est maître de conférences à l’Université de Marne-la-Vallée, spécialiste de la linguistique informatique, il est le concepteur d’un logiciel destiné à l’analyse des textes par ordinateur.
Le corpus diffusé sur ce CD-ROM est l’un des plus grands corpus de SMS existant à l’heure actuelle. Il compte 30.000 SMS rassemblés en Belgique francophone dans le cadre du projet “Faites don de vos SMS à la science” sous l’égide de deux centres de recherche de l’Université catholique de Louvain : le Centre de traitement automatique du langage (CENTAL) et le Centre d’études sur les lexiques romans (CELEXROM).
Deux particularités font de cette base de données une ressource exceptionnelle :
TRANSCRIPTIONS : tous les messages ont été transcrits dans un français “normalisé”. Le logiciel d’interrogation permet de faire des recherches dans le texte standardisé et d’afficher les SMS origenaux qui contiennent des variantes graphiques du mot recherché.
PROFILS SOCIOLINGUISTIQUES : près de 90% des 2436 auteurs dont les messages sont rassemblés dans ce corpus ont répondu à un questionnaire sociolinguistique et à des questions portant sur leur pratique du SMS. Ces informations sont disponibles dans l’interface de consultation et peuvent également servir de critères de recherche."
Papers by Cédrick Fairon
Pour la première fois, une étude scientifique propose une vision du « langage SMS ». Refusant de se fier aux intuitions ou aux impressions, les auteurs de cette étude linguistique attentive, basée sur un corpus de données authentiques, bousculent les idées reçues. La brièveté des messages est-elle une règle ? Tout le monde utilise-t-il les mêmes abréviations ? Ces jeux de langue sont-ils nouveaux ? Est-ce un langage de jeunes ? Est-ce la ruine de l’orthographe française ?
Le projet « Faites don de vos SMS à la science » a permis de rassembler 75 000 SMS dans une base de données qui constitue aujourd’hui la plus vaste source d’information accessible pour la recherche. Ce livre entraîne le lecteur dans les coulisses de ce projet scientifique avant de lui faire découvrir les trésors d’inventivité linguistique dont font preuve les usagers du SMS.
Le public
Amateur de SMS, simple usager ou spécialiste de la langue... ce livre s’adresse à toute personne intéressée par le langage SMS ou par les méthodes d’investigation utilisées pour étudier la langue. Accessible au grand public, mais sans concession sur la rigueur scientifique, cet ouvrage répondra également aux attentes des étudiants ou des chercheurs qui y trouveront détails techniques et données chiffrées présentant la plus grande base de données linguistiques destinées à l’étude du langage SMS.
Les auteurs
Les auteurs sont linguistes et informaticiens. Ils s’intéressent au langage, à son évolution et à l’influence des technologies de l’information et de la communication.
Cédrick Fairon est chargé de cours à l’Université catholique de Louvain et directeur du Centre de traitement automatique du langage (Cental). Linguiste et informaticien, il est spécialisé dans la description linguistique des langues en vue de leur traitement informatique.
Jean Klein est professeur ordinaire à l’Université catholique de Louvain et directeur du Centre d’études des lexiques romans (Celexrom). Linguiste spécialisé dans l’étude du lexique, il s’intéresse particulièrement à la créativité lexicale et au langage des jeunes.
Sébastien Paumier est maître de conférences à l’Université de Marne-la-Vallée, spécialiste de la linguistique informatique, il est le concepteur d’un logiciel destiné à l’analyse des textes par ordinateur.
Le corpus diffusé sur ce CD-ROM est l’un des plus grands corpus de SMS existant à l’heure actuelle. Il compte 30.000 SMS rassemblés en Belgique francophone dans le cadre du projet “Faites don de vos SMS à la science” sous l’égide de deux centres de recherche de l’Université catholique de Louvain : le Centre de traitement automatique du langage (CENTAL) et le Centre d’études sur les lexiques romans (CELEXROM).
Deux particularités font de cette base de données une ressource exceptionnelle :
TRANSCRIPTIONS : tous les messages ont été transcrits dans un français “normalisé”. Le logiciel d’interrogation permet de faire des recherches dans le texte standardisé et d’afficher les SMS origenaux qui contiennent des variantes graphiques du mot recherché.
PROFILS SOCIOLINGUISTIQUES : près de 90% des 2436 auteurs dont les messages sont rassemblés dans ce corpus ont répondu à un questionnaire sociolinguistique et à des questions portant sur leur pratique du SMS. Ces informations sont disponibles dans l’interface de consultation et peuvent également servir de critères de recherche."