Les usines à ressources

EditEdit InfoInfo TalkTalk
Search:    

Cette catégorie est-elle pertinente?

Par ce terme, j'entends les sites fournissant des outils de création de ressources, donc des méta-ressources, des lieux de production de contenu

Le CNRTL (Centre National de Recherche Textuelles et Lexicales,
[WWW]http://www.cnrtl.fr/) a pour objectif le recensement, la documentation,
la normalisation, l'archivage, l'enrichissement et la diffusion de
ressources variées. La pérennité du service et des données est garantie
par l'adossement à l'UMR ATILF (CNRS - Nancy Université), le soutien du
CNRS ainsi que l'intégration au réseau européen CLARIN
([WWW]http://www.mpi.nl/clarin/).
Le CNRTL est théoriquement consacré aux ressources et aux outils
destinés à des recherches en TAL, en ingénierie linguistique ou en
linguistique de corpus (par exemple l'analyseur flexionnel Flemm, le
lexique Morphalou issu de la nomenclature du Trésor de la Langue
Française, normalisé et disponible au format XML). Mais il attirera un
public plus large grâce à plusieurs offres conviviales, consultables en
ligne sans qu'il soit nécessaire d'être un expert en manipulation de
données numérisées.

Outre une collection de dictionnaires variés interrogeables en ligne
(dictionnaires anciens, dictionnaires de l'Académie, etc.), on attirera
l'attention sur le Portail lexical : un ensemble de données
lexicographiques d'origine diverses (Trésor de la Langue Française de
l'ATILF, Dictionnaire de synonymes du CRISCO, concordances issues de
Frantext, etc.) rassemblées dans une interface unique de façon à
permettre une navigation agréable et pratique. L'ambition grand public
du Portail lexical ne fait pas de doute (il est possible d'installer
une barre d'outils dédiée dans le navigateur Firefox) ; ce portail
semble d'ailleurs destiné à se substituer au TLFi
([WWW]http://atilf.atilf.fr/tlf.htm) qui, en dépit d'une interface
vieillissante, propose davantage de possibilités d'interrogation.

L'offre en matière de corpus textuelle est, en revanche, encore
modeste, comparée à d'autres initiatives (par exemple, Wikisource :
[WWW]http://fr.wikisource.org/). Elle est pour l'heure composée du corpus
DEDE (articles du Monde annotés morphosyntaxiquement suivant le schéma
d'annotation Multext) et de l'ensemble des textes libres de droits de
la base textuelle Frantext. Cet ensemble disparate est curieusement
nommé "Corpus Frantext", comme si le seul fait d'être libre de droits
lui assurait une cohésion philologique et lui allouait le statut de
corpus. Or, dans le contexte actuel, où de nombreux laboratoires ont la
possibilité de mettre en ligne à peu de frais plusieurs gigaoctets de
données textuelles de qualité variable, il conviendrait que le CNRTL,
pour se distinguer, puisse faire argument de l'excellence linguistique
de son offre. Autrement dit, aux objectifs quantitatifs aujourd'hui
atteignables sans mérite, il est utile d'adjoindre des objectifs de
qualité. Le CNRTL pourrait être le lieu de leur définition.

Cette perspective ne serait d'ailleurs pas en contradiction avec les
ambitions affichées (normalisation, maintenance et pérennisation),
toutefois, on peut se demander s'il est possible de concilier l'offre
TAL et ingénierique -légitime dans ce contexte mais encore
sous-représentée- et une offre grand public ergonomiquement soignée et
attractive, mais qui nécessite vraisemblablement davantage que de la
maintenance.

Malgré ses limites, le CNRTL constitue une initiative heureuse et opportune.

This is a Wiki Spot wiki. Wiki Spot is a 501(c)3 non-profit organization that helps communities collaborate via wikis.