TALAf 2014 : Traitement Automatique des Langues Africaines (écrit et parole)

posted by user: fsadat || 4878 views || tracked by 7 users: [display]

TALAf 2014 : Traitement Automatique des Langues Africaines (écrit et parole) - Atelier de TALN 2014

Link: http://jibiki.univ-savoie.fr/~mangeot/TALAf/2014/

When	Jul 1, 2014 - Jul 1, 2014
Where	Marseille - France
Submission Deadline	Apr 26, 2014
Notification Due	May 24, 2014
Final Version Due	Jun 15, 2014

Categories NLP information retrieval computational linguistics language

Call For Papers

Traitement Automatique des Langues Africaines (écrit et parole) – TALAf

Atelier TALN 2014

Organisateurs : Mathieu Mangeot et Fatiha Sadat

Présentation

Dans la suite du premier atelier TALAf qui s’est tenu le 8 juin 2012 à Grenoble, lors de la conférence JEP-TALN-RECITAL 2012, nous proposons une nouvelle édition de cet atelier lors de la conférence TALN 2014 le premier juillet à Marseille.

L’atelier TALAf a pour but d’effectuer un état des lieux des travaux de constitution de ressources linguistiques de base (dictionnaires, corpus oraux et écrits), de mettre au point des méthodologies simples et économes d’élaboration de ressource, d’échanger sur les techniques permettant de se passer de certaines ressources inexistantes et de fixer un certain nombre de principes pour les futurs travaux dans le domaine.Nous accueillons les travaux menés sur toutes les langues peu dotées d’Afrique. L’arabe dialectal de l’Afrique du Nord (maghrébin) est également bienvenu.

Les recherches en traitement automatique des langues africaines sont actuellement à l’orée de développements majeurs. Les efforts de reconnaissance des langues nationales et de standardisation des différents alphabets commencent à porter leurs fruits. Au Niger, par exemple, les alphabets des langues fulfulde, haussa, kanouri, songhai-zarma et tamajaq ont été définis par des arrêtés du gouvernement en 1999. Par ailleurs, un certain nombre de collègues formés dans les pays du Nord reviennent dans leur pays avec la volonté de continuer leur travail sur les langues locales. Il y a également des diasporas disposant de moyens technologiques leur permettant de contribuer directement en ligne et de manière bénévole.

Pour autant, les langues nationales de la plupart des pays d’Afrique sont peu dotées (langues-π) : les ressources électroniques disponibles sont rares, mal distribuées, voire inexistantes. Seules sont accessibles les fonctions d’édition et d’impression rendant l’exploitation de ces langues difficile. Au moment où il est question de les introduire dans le système éducatif, de créer des normes d’écriture standardisées et stabilisées et surtout de développer leur usage à l’écrit et à l’oral dans l’administration et la vie quotidienne, un développement de ces langues s’impose comme une nécessité vitale.

Développer le traitement automatique de langues africaines nécessite l’élaboration de ressources qui seront les fondements à partir desquels des traitements plus élaborés peuvent être construits. Il apparaît indispensable de constituer en premier lieu des corpus écrits et oraux annotés aussi larges que possibles. À partir de tels corpus, il est possible d’extraire des exemples pour aider à la constitution de dictionnaires ou de mettre au point des modèles de langage pour la reconnaissance vocale. Toutefois, la constitution de tels corpus reste une entreprise délicate dans le contexte de langues peu dotée car les transcriptions souffrent du manque de standardisation de la langue et l’enrichissement de corpus reste très onéreux.

Le développement d’applications à base de traitement de l’oral peut être considéré comme prioritaire dans des régions de tradition orale. De plus, l’usage de téléphones mobiles, très répandu, permet d’imaginer un déploiement rapide de ces applications.

Les dictionnaires sont également nécessaires pour construire les outils de base tels les correcteurs orthographiques (qui peuvent servir à leur tour pour corriger les corpus écrits) ou encore pour l’aide à la transcription de corpus oraux. Il existe parfois des dictionnaires bilingues couplant la langue officielle et une langue nationale. Par exemple, au Mali, le père Charles Bailleul est l’auteur d’un dictionnaire bambara-français ; au Niger, le projet éducatif SOUTÉBA a créé cinq dictionnaires bilingues destinés aux enfants de primaire. Mais ceux-ci existent uniquement en version papier ou sous forme de fichiers d’éditeurs de texte (format.doc). Informatiser ces dictionnaires pour les rendre utilisables par des outils de traitement automatique nécessite, dans un premier temps, d’ajouter des informations manquantes : prononciation, règles de flexion morphologiques et flexionnelles, exemples et traductions tirés de corpus, etc.Il s’agit dans un premier temps de les informatiser (les transformer dans un format utilisable par des outils de traitement automatique) et de les compléter avec des informations manquantes : prononciation, exemples et traductions tirés de corpus, etc. Des astuces peuvent parfois être inventées pour pallier le manque de ressources. Par exemple, s’il n’existe pas de corpus oraux avec transcriptions, il est possible de constituer un corpus oral de textes lus.

Enfin, il y a lieu de prendre en compte les contraintes socio-économiques s’exerçant sur la population des locuteurs : les ressources économiques sont limitées, les ressources humaines qualifiées sont rares, les recherches sont sporadiques et isolées, les résultats confidentiels et parcellaires. Il est donc nécessaire de définir des méthodologies économes en coût d’achat de logiciels et en temps de travail qualifié visant à produire des résultats pérennes, partagés et faciles à enrichir. La constitution de ressources linguistiques de manière générale, et plus encore pour les langues africaines devrait donc respecter un certain nombre de principes : utilisation d’outils en source ouverte, définition et utilisation de standards (ISO, Unicode), transfert de connaissances entre les collègues des pays du Nord et du Sud, disponibilité des ressources sous licence ouverte (Creative Commons), etc.

Cet atelier a pour but d’effectuer un état des lieux des travaux de constitution de ressources linguistiques de base (dictionnaires, corpus oraux et écrits), de mettre au point des méthodologies simples et économes d’élaboration de ressource, d’échanger sur les techniques permettant de se passer de certaines ressources inexistantes et de fixer un certain nombre de principes pour les futurs travaux dans le domaine.
L’atelier se déroulera sur une demi-journée ou une journée entière, sous réserve des soumissions et de la décision finale du comité de programme de TALN.

Les ateliers TALAf sont soutenus par l’association LTT (Lexicologie Terminologie Traduction).

Types de communication

Les publications devront comprendre entre 6 et 12 pages. Les auteurs sont invités à soumettre des articles présentant des travaux de recherche originaux sur les thèmes proposés ci-dessous.

Thèmes

L’atelier est ouvert à la présentation de travaux de recherche portant sur les thèmes suivants :

Ressources :
• constitution de corpus écrits (monolingues, bilingues alignés ou comparables)
• constitution de corpus oraux (incluant la transcription)
• élaboration de lexiques et dictionnaires (monolingues, bilingues)
• évaluation de la qualité des ressources

Outils :
• analyseurs morphologiques, correcteurs orthographiques
• analyseurs syntaxiques, correcteurs grammaticaux
• systèmes de TA (statistique ou à base de règles)
• reconnaissance de la parole
• synthèse vocale

Critères de sélection

Les soumissions seront examinées par au moins deux spécialistes du domaine.
Pour les travaux de recherches, seront considérées en particulier :
• l’adéquation aux thèmes de l’atelier.
• l’importance et l’originalité de la contribution,
• la correction du contenu scientifique et technique,
• l’organisation et la clarté de la présentation.
Modalités de soumission

Les articles seront rédigés en français par les francophones, en anglais par les collègues qui ne maîtrisent pas le français. Les formats précis de soumission sont disponibles pour Word et Latex sur le site de taln2014 :
http://www.taln2014.org/site/soumission/

Les propositions de communications doivent être envoyées sous forme pdf à l’adresse suivante :
https://www.easychair.org/conferences/?conf=talaf20140

Comité de programme

Laurent Besacier LIG, Grenoble, France
Philippe Bretier Voxygen, Pleumeur-Bodou, France
Khalid Choukri ELDA, Paris, France
Mame Thierno Cissé ARCIV, U. Cheikh Anta Diop, Dakar, Sénégal
Denys Duchier Université d’Orléans, Orléans, France
Chantal Enguehard LINA, Nantes, France
Gil Francopoulo Tagmatica, Paris, France
Hadrien Gelas DDL, Lyon, France
Mathieu Mangeot LIG, Grenoble, France
Chérif Mbodj Centre de Linguistique Appliquée de Dakar, Sénégal
Kamal Naït-Zerrad INALCO, Paris, France
Pascal Nocera Université d’Avignon, France
Francois Pellegrino DDL, Lyon, France
Fatiha Sadat UQAM, Montréal, Canada
Mamadou Lamine Sanogo INSS, Ouagadougou, Burkina-Faso
Emmanuel Schang Université d’Orléans, Orléans, France
Gilles Sérasset LIG, Grenoble, France
Valentin Vydrin LLACAN-INALCO, Paris, France
Calendrier