Abstract
Dans cette contribution, nous présentons la base CLAPI développée au laboratoire ICAR dans le contexte de l’évolution des bases de données de langues parlées en France au cours des trente dernières années. Nous détaillons les deux composantes de CLAPI, l’archive de corpus de langue parlée en interaction audio et vidéo enregistrés dans des situations sociales naturelles variées, et la plateforme d’outils.L’usage et l’apport de CLAPI sont illustrés par deux études. L’une décrit comment la base peut être utilisée pour des travaux de linguistique interactionnelle intégrant la multimodalité (« oh là là ») ; l’autre concerne une recherche combinant données et métadonnées (« trop »). L’article est aussi l’occasion d’un bilan plus général. La mise en perspective montre en effet qu’après la période des questions est venue celle des dilemmes. La période des questions, choix et décisions à toutes sortes de niveaux a accompagné la mise en place des bases de données. L’expérience permet maintenant de mesurer leurs indéniables apports en termes non seulement de quantité de données disponibles (et traitables grâce aux outils), mais aussi de qualité (comme conséquence des exigences de standardisation liées au partage des données). La période des dilemmes nous conduit à nous interroger sur les meilleurs choix à opérer aujourd’hui dans les relations entre la poursuite des recherches sur des corpus variés (et parfois sensibles) et les exigences des bases de données ouvertes.