Mot-clé : traitement-de-corpus

08.08.2018

LREC 2018, Eleventh International Conference on Language Resources and Evaluation, Miyazaki, Japan [papers]

« Since the first LREC held in Granada in 1998, LREC has become the major event on Language Resources (LRs) and…

lrec-conf.org, 2018

31.07.2018

Projet VisaTM : l’interconnexion OpenMinTeD – AgroPortal – ISTEX, un exemple de service de Text et Data Mining pour les scientifiques français

« Présentation du projet VisaTM La création d’une offre de service en fouille de texte et de données – TDM…

hal.archives-ouvertes.fr, Fabienne Kettani, Stéphane Schneider, Sophie Aubin, Robert Bossy, Claire François, et al.. 29es Journées Francophones d'Ingénierie des Connaissances, IC 2018, Jul 2018, Nancy, France, IC 2018, pp.247-249, 2018, 〈http://pfia2018.loria.fr/〉. 〈hal-01839626〉

Continuer la lecture

20.07.2018

Données liées et données à lier : quels outils pour quels alignements ?

« À la suite des ateliers « Décrire, transcrire et diffuser un corpus documentaire hétérogène : méthodes, formats,…

bnf.hypotheses.org, Eleonora Moiraghi, 19 juillet 2018

Continuer la lecture

18.07.2018

Aligner son thesaurus avec RAMEAU en utilisant OnAGUI

« La BNF organisait le 10 juillet 2018 un atelier « Données liées et données à lier : quels…

blog.sparna.fr, Thomas Francart, 17 juillet 2018

Continuer la lecture

03.07.2018

Bienvenue dans la nouvelle version de Frantext

» Frantext est une base de données comportant 5350 références, soit 251 millions de mots, développée à l’ATILF (Analyse et…

frantext.fr, 2018

Continuer la lecture

14.05.2018

New Named-Entity Recognition (NER) Toolchain and Demo

« The Semantic Lab has launched a demo of the Named-Entity Recognition (NER) toolchain developed by Prof. Matt Miller, which is…

semlab.io, 1 mai 2018

Continuer la lecture

18.04.2018

Corpus automatiques des Tweets en « Humanités Numériques » et en « Digital Literacies »

« Nous présentons des corpus Twitter XML et TEI quotidiens correspondant à des extractions et analyses automatiques de twitter sur la…

ttn.univ-paris13.fr, avril 2018

Continuer la lecture

17.04.2018

Explorer des corpus d’images. L’IA au service du patrimoine

« Suite aux ateliers « Décrire, transcrire et diffuser un corpus documentaire hétérogène : méthodes, formats, outils »…

bnf.hypotheses.org, Eleonora Moiraghi, 16 avril 2018

Continuer la lecture

16.04.2018

Synthèse de l’enquête « Évaluation du dispositif CERCLES »

« Le dispositif CERCLES (Corrections et Enrichissements par le Réseau de Corpus de l’Enseignement Supérieur) a été lancé en 2015.

punktokomo.abes.fr, 9 avril 2018

Continuer la lecture

26.03.2018

Presenting the Nénufar Project: a Diachronic Digital Edition of the Petit Larousse Illustré

« This paper presents the Nénufar project, which aims to make several successive (free of copyright up to 1948) editions of…

hal.inria.fr, Hervé Bohbot, Francesca Frontini, Giancarlo Luxardo, Mohamed Khemakhem, Laurent Romary, GLOBALEX 2018 - Globalex workshop at LREC2018, May 2018, Miyazaki, Japan, 〈https://globalex.link/globalex2018/〉. 〈hal-01728328〉

Continuer la lecture

23.03.2018

Annotation et analyse syntaxique de corpus hétérogènes [podcast]

« Comment doter le français médiéval (IXe-XVe siècles) d’une chaîne d’annotation automatique en syntaxe de dépendances ? Par Mathilde Regnault, doctorante…

franceculture.fr, La Recherche montre en main, 21 mars 2018

Continuer la lecture

27.02.2018

L’édition numérique de correspondances – guide méthodologique

« Le groupe de travail Correspondance du consortium Cahier a publié un guide méthodologique pour l’édition numérique de…

cahier.hypotheses.org, février 2018

Continuer la lecture

19.01.2018

Instagram, une source pour la recherche et l’enseignement en géographie ?

« (…) Instagram, réseau social basé sur la photographie désormais célèbre, peut-il constituer une source intéressante, pertinente et fiable pour le…

cybergeo.hypotheses.org, Olivier Finance, 15 janvier 2018

Continuer la lecture

19.01.2018

Interopérabilités – Journées MASA – 20-22 novembre 2017, Tours – Mise en ligne des enregistrements

« Les 20, 21 et 22 novembre 2017, se sont tenues à Tours les journées MASA consacrées à l’interopérabilité des données…

masa.hypotheses.org, Laurence Rageot, 9 janvier 2018

Continuer la lecture

21.12.2017

Géolocalisation et spatialisation de documents patrimoniaux : trois heures de partage autour de la cartographie numérique

« Dans le cadre du projet CORPUS, inscrit au plan quadriennal de la recherche 2016-2019 de la Bibliothèque…

bnf.hypotheses.org, Eleonora Moiraghi, 20 décembre 2017

Continuer la lecture

18.12.2017

Étiquetage thématique automatisé de corpus par représentation sémantique

« Dans les corpus de textes scientifiques, certains articles issus de communautés de chercheurs différentes peuvent ne pas être décrits par…

hal.archives-ouvertes.fr, Lucie Martinet, Hussein Al-Natsheh, Fabien Rico, Fabrice Muhlenbach, Djamel Zighed, 2018 - 18ème Conférence Internationale sur l'Extraction et la Gestion de Connaissances, Jan 2018, Paris-Nord, France. pp.1-6. 〈hal-01659639〉

Continuer la lecture

14.12.2017

Prototype expérimental pour l’exploration de corpus audiovisuels et textuels

« Paroles, Images et Textes des Savoirs (P.I.T.S) est une plateforme d’extraction automatique de métadonnées et d’exploration innovante des contenus audiovisuels.

fmsh.fr, décembre 2017

Continuer la lecture

30.11.2017

Décrire, transcrire et diffuser un corpus documentaire hétérogène : méthodes, formats, outils

« Dans le cadre du projet CORPUS, inscrit au plan quadriennal de la recherche 2016-2019 de la Bibliothèque…

bnf.hypotheses.org, Olivier Jacquot, 29 novembre 2017

Continuer la lecture

26.09.2017

Researchers release largest ever public collection of British conversations

« Language experts at Lancaster University and Cambridge University Press have (…) published the largest ever public collection of transcribed British…

esrc.ac.uk, 25 septembre 2017

Continuer la lecture

31.08.2017

Tour de CLARIN: CLARIN AUSTRIA presents ‘Viennese Lexicographic Editor’ tool

« The Viennese Lexicographic Editor has been developed by the Austrian Centre for Digital Humanities…

clarin.eu/blog, Karolina Badzm, 28 août 2017

Continuer la lecture

25.07.2017

CERCLES : Un algorithme pour automatiser les liens 7XX, sur le corpus OpenEdition

« Lancé en 2015 par le SCD de l’Université François Rabelais de Tours – l’un des établissements ayant activement milité pour…

punktokomo.abes.fr, 17 juillet 2017

Continuer la lecture

21.07.2017

Mooc Lancaster University: Corpus Linguistics: Method, Analysis, Interpretation

« Learn how to build and query corpora in this practical course The course aims to: Equip those taking the course with…

futurelearn.com, 2017

Continuer la lecture

12.06.2017

Les tweets archivés : une manne pour la recherche

« On parle désormais de Social TV, chaque émission de radio s’adresse aussi aux auditeurs via son compte Twitter ou une…

inatheque.hypotheses.org, claude Mussou, 7 juin 2017

Continuer la lecture

01.06.2017

Présentation du projet CORPUS à la BnF

« CORPUS est un programme de recherche visant à préfigurer « un service de fourniture de corpus numériques…

webcorpora.hypotheses.org, Ariane Bouchard, 24 mai 2017

Continuer la lecture

29.05.2017

Copyright Clearance Center Broadens Access to Full-Text Semantic Search with New RightFind® XML for Mining Features

« Copyright Clearance Center, Inc. (CCC), a global leader in content management, copyright licensing, discovery and delivery…

Continuer la lecture

19.05.2017

ISTEX : Entraînement du modèle fulltext de Grobid par l’équipe R&D

« À l’heure de rédaction de ce billet de blog, la plateforme ISTEX met à disposition plus de 18 millions de…

blog.istex.fr, Sevil Zeynali, 19 mai 2017

Continuer la lecture

10.02.2017

Persée ouvre son triplestore : data.persee.fr et renforce son inscription dans l’environnement des données liées

« Afin de répondre aux usages actuels des communautés scientifiques et d’aller encore plus loin dans l’exploitation et la réutilisation des…

persee.fr, 10 février 2017

Continuer la lecture

03.02.2017

Gargantext, un état de l’art collaboratif en quelques minutes

« La réalisation d’un état de l’art devient une étape à la fois scientifique, collaborative et ludique, grâce à la plateforme…

innovatives.cnrs.fr, Alexandre Delanoë, UPS 3611, 2017

Continuer la lecture

13.01.2017

Approches innovantes pour la presse ancienne numérisée : fouille et visualisation de données

« Cet article décrit comment une technique innovante de reconnaissance de mise en page (OLR, optical layout recognition) appliquée lors d’un…

bnf.hypotheses.org, Jean-Philippe Moreux, 30 décembre 2016

Continuer la lecture

09.12.2016

Retour d’expérience: aide à la constitution d’un corpus bibliographique sur les études africaines

« Entre l’été 2014 et l’automne 2015, la BU a collaboré avec un groupe de chercheurs réalisant un livre…

bibliotheque-blogs.unice.fr, 6 décembre 2016

Continuer la lecture

07.10.2016

OpenRefine au service de BACON : quelle évaluation pour les fichiers KBART ? [4] – Dispositif CERCLES dans le cadre de BACON

« [Lire le billet qui introduit cette série « OpenRefine au service de BACON : quelle évaluation pour…

punktokomo.abes.fr, 4 octobre 2016

Continuer la lecture

26.09.2016

OpenRefine au service de BACON : quelle évaluation pour les fichiers KBART ? [3] – Cas pratique

[Lire le billet qui introduit cette série « OpenRefine au service de BACON : quelle évaluation pour…

punktokomo.abes.fr, 23 septembre 2016

Continuer la lecture

13.09.2016

OpenRefine au service de BACON : quelle évaluation pour les fichiers KBART ? [2] – Un outil : OpenRefine

« [Lire le billet qui introduit cette série « OpenRefine au service de BACON : quelle évaluation pour…

punktokomo.abes.fr, abes, 12 septembre 2016

Continuer la lecture

13.09.2016

OpenRefine au service de BACON : quelle évaluation pour les fichiers KBART ? [1] – Introduction

« Cette série de billets exposera la méthode d’évaluation appliquée aux fichiers KBART, transmis à l’Abes par les éditeurs…

punktokomo.abes.fr, abes, 12 septembre 2016

Continuer la lecture

12.09.2016

CERCLES : retour d’expérience du SCD de l’Université de Picardie Jules Verne sur le corpus CAIRN

« (…) Nouvelle adjointe à la gestion de la bibliothèque numérique dans mon établissement, et chargée du signalement des…

punktokomo.abes.fr, Aurélie Bec, 7 septembre 2016

Continuer la lecture

26.08.2016

Exploiter/visualiser/explorer un corpus issu de l’OAI-PMH grâce au duo OpenRefine/Palladio

« D’une requête OAI à une exploitation des données par l’intermédiaire d’un outils d’infoviz (en…

medium.com, Courtin Antoine, 4 août 2016

Continuer la lecture

04.04.2016

Des établissements Sudoc partenaires de Gallica

« La BnF a réalisé une série de vidéos consacrée à la coopération numérique « l’Aventure de…

http://fil.abes.fr, 31 mars 2016

Continuer la lecture

22.06.2015

ISTEX – Appel à propositions « chantiers thématiques d’usage »

« ISTEX – Initiative d’excellence en Information scientifique et technique – lance un appel à…

fil.abes, 22 juin 2015

Continuer la lecture

12.06.2015

Exploration de corpus, outils et pratiques

» Dans le cadre du consortium corpus écrits (Huma-num), le groupe de travail « Exploration de corpus »…

corist-shs.cnrs.fr, Odile Contat, 12 juin 2015

Continuer la lecture

20.02.2015

Enrichissement mutualisé de corpus : entrez dans le « CERCLES » !

« … L’objectif de cette expérimentation est simple : tester une structure d’encadrement souple et facile à mettre en…

punktokomo.abes.fr, 10 février 2015

Continuer la lecture

29.01.2015

Isidore speaks english, sino también español et toujours en français

« … Isidore peut désormais moissonner des corpus et bases de données en langue anglaise, espagnole et française et proposer…

humanum, Stéphane Pouyllau, 26 janvier 2015

Continuer la lecture

06.02.2014

sms4science : sms FOR science – Un corpus international pour l’étude des SMS – UMR5267 PRAXILING

« La communication par SMS est devenue en quelques années un véritable phénomène de société. De nombreuses études scientifiques…

cnrs.fr/inshs, Rachel Panckhurst, 23 janvier 2014

Continuer la lecture

18.06.2013

R.TeMiS : création et analyse de corpus de textes sous R

» Fonctionnalités générales R.TeMiS (R Text Mining Solution) est un environnement graphique de travail sous R permettant…

projet-plume.org, Milan Bouchet-Valat, 10 juin 2013

Continuer la lecture

26.03.2013

Thèse de François-Régis Chaumartin « Antelope, une plate-forme de TAL permettant d’extraire les sens du texte : théorie et applications de l’interface syntaxe-sémantique »

» Créer rapidement un analyseur sémantique dédié à une tâche particulière n’est pas une tâche aisée. En effet, composants…

tel.archives-ouvertes.fr, 22 Mars 2013

Continuer la lecture