16.04.2021
Mot-clé : Traitement de corpus
12.03.2021
Opscidia’s ontology generator
« Opscidia, a French startup, was the winner in the OpenAIRE open call for innovation. The team…22.12.2020
Clément Dalloux . « Fouille de texte et extraction d’informations dans les données cliniques » [thèse]
« Avec la mise en place d’entrepôts de données cliniques, de plus en plus de données de santé sont disponibles pour…06.07.2020
Des archives à l’actualité, c’est possible avec ISTEX !
« Depuis plusieurs mois « la covid 19 » (covid 19 disease) dû à un coronavirus sévit dans le monde.09.06.2020
Beethoven250@ISTEX : écouter Beethoven autrement
« (…) Pour rendre hommage à ce grand musicien en cette année 2020, l’équipe ISTEX a souhaité créer une collection de…10.03.2020
Une recherche sur 40 millions d’objets du patrimoine
« Le 10 mars, le CNRS et la Bibliothèque nationale de France (BnF) renouvellent une convention cadre qui fait suite à…08.01.2020
Nouvelles méthodes pour la fouille et l’analyse des corpus textuels (école d’été du 28 juin au 4 juillet 2020, villa Cynthia à Fréjus)
« L’UMR Thalim en collaboration avec l’UMR LATTICE et la TGIR HUMANUM du 28 juin au 4 juillet 2020 dans le…06.12.2019
Nouveaux tutoriels : Cillex et Gargantext
« Le service formation vient de réaliser deux nouveaux tutoriels permettant de découvrir…23.10.2019
Colloque DHNord 2019 : “Corpus et archives numériques”, 16 -18 octobre, Lille [vidéos]
« Le colloque DHNord réunit chaque année à la Maison Européenne des Sciences de l’Homme et de la Société (Lille) la…16.10.2019
A Thesaurus of Old English as Linguistic Linked Data: Using OntoLex, SKOS and lemon-tree to Bring Topical Thesauri to the Semantic Web
« In this paper, we discuss porting a topical thesaurus to the Web: A Thesaurus of Old English. By means of…02.09.2019
Using Transkribus for automated text recognition of historical Bengali Books
« Are you working with digitised printed collections that you want to ‘unlock’ for keyword search and text mining? Maybe you…22.08.2019
SEMANTiCS 2019 « The Power of AI and Knowledge Graphs », Sept. 09-12, 2019 , Karlsruhe (Germany) [programme]
« SEMANTiCS conference is the leading European conference on Semantic Technologies and AI. Researchers, industry experts and business leaders can develop…20.08.2019
Atelier – Du parchemin à la fouille de données. Nouveaux outils pour la création, la formalisation et l’analyse des corpus médiévaux – 28-30 octobre 2019 – Campus Condorcet (Paris)
« (…) L’objectif de cet atelier sera d’offrir une première initiation à des outils informatiques de création, de formalisation et d’analyse…13.08.2019
Application of Natural Language Processing Algorithms to the Task of Automatic Classification of Russian Scientific Texts
« This work is devoted to the study of applicability of modern methods of machine learning to the task of automatic…21.06.2019
Alignement d’un thésaurus sur GeoNames : retour d’expérience
« Alignement de ressources terminologiques. Pourquoi ? La mise en correspondance des ressources terminologiques répond à différents besoins allant du souhait…hal.archives-ouvertes.fr, Abdelmajid Khayari, Gilles Banzet, 2019, ⟨hal-02159910⟩
11.06.2019
CERCLES : bilan du chantier AMS
« Le chantier CERCLES American Mathematical Society Description du corpus Plusieurs bibliothèques du RNBM acquièrent des collections d’ebooks publiées…28.05.2019
Istex: A Database of Twenty Million Scientific Papers with a Mining Tool Which Uses Named Entities
« Istex is a database of twenty million full text scientific papers bought by the French Government for the use of…14.05.2019
Le patrimoine numérique national à l’heure de l’intelligence artificielle. Le programme de recherche Corpus comme espace d’expérimentation pour les humanités numériques
« Dans un contexte d’augmentation des volumétries des données et de réduction des temps de traitement, la Bibliothèque nationale de France…13.05.2019
Aligning Social Media Indicators with the Documents in an Open Access Repository
« In this paper we describe our current efforts towards building a framework that extends the functionality of an Open Access…10.04.2019
A Hybrid Information Extraction Approach Exploiting Structured Data Within a Text Mining Process
« Many data sets encompass structured data fields with embedded free text fields. The text fields allow customers and workers to…08.03.2019
Nouveau paquet R.temis
« Un nouveau paquet dénommé R.temis a été mis en ligne sur le CRAN. Il fournit des fonctions utilisables dans des…04.03.2019
Exploitation de l’hétérogénéité dans les données textuelles. Utilisation de données produites à Madagascar
« Depuis plusieurs décennies, on observe une utilisation croissante des systèmes d’information, ce qui provoque une augmentation exponentielle des données textuelles.21.02.2019
Grand Débat National : Lancement d’un appel à Manifestation d’Intérêt pour l’analyse des données par la Recherche
« (…) L’initiative est organisée en deux temps. Les chercheurs/ses et consortium académiques sont invités à envoyer une lettre d’intention avant…enseignementsup-recherche.gouv.fr, Communiqué - Publication, Frédérique Vidal, 20 février 2018
19.02.2019
Indexer les corpus numériques – 1er février 2019 – Mise en ligne des interventions
« La première séance du séminaire « Indexer les corpus numériques », organisée par Fabienne Vial-Bonacci (CNRS, IHRIM) et Emmanuelle Perrin (Université…23.01.2019
Les avancées de Numapresse : pour une approche contextuelle du Text Mining
« Cet article est le premier d’une série de retours d’expériences sur les travaux menés par le projet Numapresse au cours…22.11.2018
A Text Mining Pipeline Using Active and Deep Learning Aimed at Curating Information in Computational Neuroscience
« The curation of neuroscience entities is crucial to ongoing efforts in neuroinformatics and computational neuroscience, such as those being deployed…12.11.2018
CERCLES : le premier chantier dédié aux autorités
« En 2015 naissait le dispositif CERCLES (voir le billet), mis en place par l’ABES pour accompagner, aider…29.10.2018
The Logoscope: a Semi-Automatic Tool for Detecting and Documenting French New Words From the Linguistic Project to the Web Interface
« In this article we present the design and implementation of the Logoscope, the first tool especially developed to detect new…03.10.2018
What is a lab ?
« Mes pérégrinations autour du projet Corpus continuent (pour ceux qui n’auraient pas suivi les épisodes précédents, ils…27.09.2018
TELMA Traitement Électronique des Manuscrits et des Archives
« TELMA –Traitement électronique des manuscrits et des archives– est une collection de l’IRHT, dédiée…cosme.hypotheses.org, Estelle Ingrand-Varenne, 26 septembre 2018
21.09.2018
HathiTrust Research Center Extends Non-Consumptive Research Tools to Copyrighted Materials: Expanding Research through Fair Use
« HathiTrust has reached a tremendous milestone in the history of HathiTrust and the HathiTrust Research Center’s services. Since 2011, HTRC…20.08.2018
Méthodologie pour identifier les terrains d’étude dans des corpus scientifiques
« Le projet interdisciplinaire TERRE-ISTEX a pour objectif d’identifier l’évolution des fronts de recherche en relation avec les territoires d’études, les…13.08.2018
OpenMinTeD: A Platform Facilitating Text Mining of Scholarly Content [.pdf]
« The OpenMinTeD platform aims to bring full text Open Access scholarly content from a wide range of providers together with…08.08.2018
LREC 2018, Eleventh International Conference on Language Resources and Evaluation, Miyazaki, Japan [papers]
« Since the first LREC held in Granada in 1998, LREC has become the major event on Language Resources (LRs) and…31.07.2018
Projet VisaTM : l’interconnexion OpenMinTeD – AgroPortal – ISTEX, un exemple de service de Text et Data Mining pour les scientifiques français
« Présentation du projet VisaTM La création d’une offre de service en fouille de texte et de données – TDM…20.07.2018
Données liées et données à lier : quels outils pour quels alignements ?
« À la suite des ateliers « Décrire, transcrire et diffuser un corpus documentaire hétérogène : méthodes, formats,…18.07.2018
Aligner son thesaurus avec RAMEAU en utilisant OnAGUI
« La BNF organisait le 10 juillet 2018 un atelier « Données liées et données à lier : quels…03.07.2018
Bienvenue dans la nouvelle version de Frantext
» Frantext est une base de données comportant 5350 références, soit 251 millions de mots, développée à l’ATILF (Analyse et…14.05.2018
New Named-Entity Recognition (NER) Toolchain and Demo
« The Semantic Lab has launched a demo of the Named-Entity Recognition (NER) toolchain developed by Prof. Matt Miller, which is…18.04.2018
Corpus automatiques des Tweets en « Humanités Numériques » et en « Digital Literacies »
« Nous présentons des corpus Twitter XML et TEI quotidiens correspondant à des extractions et analyses automatiques de twitter sur la…17.04.2018
Explorer des corpus d’images. L’IA au service du patrimoine
« Suite aux ateliers « Décrire, transcrire et diffuser un corpus documentaire hétérogène : méthodes, formats, outils »…16.04.2018
Synthèse de l’enquête « Évaluation du dispositif CERCLES »
« Le dispositif CERCLES (Corrections et Enrichissements par le Réseau de Corpus de l’Enseignement Supérieur) a été lancé en 2015.26.03.2018
Presenting the Nénufar Project: a Diachronic Digital Edition of the Petit Larousse Illustré
« This paper presents the Nénufar project, which aims to make several successive (free of copyright up to 1948) editions of…23.03.2018
Annotation et analyse syntaxique de corpus hétérogènes [podcast]
« Comment doter le français médiéval (IXe-XVe siècles) d’une chaîne d’annotation automatique en syntaxe de dépendances ? Par Mathilde Regnault, doctorante…27.02.2018
L’édition numérique de correspondances – guide méthodologique
« Le groupe de travail Correspondance du consortium Cahier a publié un guide méthodologique pour l’édition numérique de…19.01.2018
Instagram, une source pour la recherche et l’enseignement en géographie ?
« (…) Instagram, réseau social basé sur la photographie désormais célèbre, peut-il constituer une source intéressante, pertinente et fiable pour le…19.01.2018
Interopérabilités – Journées MASA – 20-22 novembre 2017, Tours – Mise en ligne des enregistrements
« Les 20, 21 et 22 novembre 2017, se sont tenues à Tours les journées MASA consacrées à l’interopérabilité des données…21.12.2017
Géolocalisation et spatialisation de documents patrimoniaux : trois heures de partage autour de la cartographie numérique
« Dans le cadre du projet CORPUS, inscrit au plan quadriennal de la recherche 2016-2019 de la Bibliothèque…18.12.2017
Étiquetage thématique automatisé de corpus par représentation sémantique
« Dans les corpus de textes scientifiques, certains articles issus de communautés de chercheurs différentes peuvent ne pas être décrits par…14.12.2017
Prototype expérimental pour l’exploration de corpus audiovisuels et textuels
« Paroles, Images et Textes des Savoirs (P.I.T.S) est une plateforme d’extraction automatique de métadonnées et d’exploration innovante des contenus audiovisuels.30.11.2017
Décrire, transcrire et diffuser un corpus documentaire hétérogène : méthodes, formats, outils
« Dans le cadre du projet CORPUS, inscrit au plan quadriennal de la recherche 2016-2019 de la Bibliothèque…26.09.2017
Researchers release largest ever public collection of British conversations
« Language experts at Lancaster University and Cambridge University Press have (…) published the largest ever public collection of transcribed British…31.08.2017
Tour de CLARIN: CLARIN AUSTRIA presents ‘Viennese Lexicographic Editor’ tool
« The Viennese Lexicographic Editor has been developed by the Austrian Centre for Digital Humanities…25.07.2017
CERCLES : Un algorithme pour automatiser les liens 7XX, sur le corpus OpenEdition
« Lancé en 2015 par le SCD de l’Université François Rabelais de Tours – l’un des établissements ayant activement milité pour…21.07.2017
Mooc Lancaster University: Corpus Linguistics: Method, Analysis, Interpretation
« Learn how to build and query corpora in this practical course The course aims to: Equip those taking the course with…12.06.2017
Les tweets archivés : une manne pour la recherche
« On parle désormais de Social TV, chaque émission de radio s’adresse aussi aux auditeurs via son compte Twitter ou une…01.06.2017
Présentation du projet CORPUS à la BnF
« CORPUS est un programme de recherche visant à préfigurer « un service de fourniture de corpus numériques…29.05.2017
Copyright Clearance Center Broadens Access to Full-Text Semantic Search with New RightFind® XML for Mining Features
« Copyright Clearance Center, Inc. (CCC), a global leader in content management, copyright licensing, discovery and delivery…19.05.2017
ISTEX : Entraînement du modèle fulltext de Grobid par l’équipe R&D
« À l’heure de rédaction de ce billet de blog, la plateforme ISTEX met à disposition plus de 18 millions de…10.02.2017
Persée ouvre son triplestore : data.persee.fr et renforce son inscription dans l’environnement des données liées
« Afin de répondre aux usages actuels des communautés scientifiques et d’aller encore plus loin dans l’exploitation et la réutilisation des…03.02.2017
Gargantext, un état de l’art collaboratif en quelques minutes
« La réalisation d’un état de l’art devient une étape à la fois scientifique, collaborative et ludique, grâce à la plateforme…13.01.2017
Approches innovantes pour la presse ancienne numérisée : fouille et visualisation de données
« Cet article décrit comment une technique innovante de reconnaissance de mise en page (OLR, optical layout recognition) appliquée lors d’un…09.12.2016