Colloque DHNord 2019 : “Corpus et archives numériques”, 16 -18 octobre, Lille [vidéos]

« Le colloque DHNord réunit chaque année à la Maison Européenne des Sciences de l’Homme et de la Société (Lille) la … Continuer la lecture de « Colloque DHNord 2019 : “Corpus et archives numériques”, 16 -18 octobre, Lille [vidéos] »

A Thesaurus of Old English as Linguistic Linked Data: Using OntoLex, SKOS and lemon-tree to Bring Topical Thesauri to the Semantic Web

« In this paper, we discuss porting a topical thesaurus to the Web: A Thesaurus of Old English. By means of … Continuer la lecture de « A Thesaurus of Old English as Linguistic Linked Data: Using OntoLex, SKOS and lemon-tree to Bring Topical Thesauri to the Semantic Web »

Using Transkribus for automated text recognition of historical Bengali Books

« Are you working with digitised printed collections that you want to ‘unlock’ for keyword search and text mining? Maybe you … Continuer la lecture de « Using Transkribus for automated text recognition of historical Bengali Books »

SEMANTiCS 2019 « The Power of AI and Knowledge Graphs », Sept. 09-12, 2019 , Karlsruhe (Germany) [programme]

« SEMANTiCS conference is the leading European conference on Semantic Technologies and AI. Researchers, industry experts and business leaders can develop … Continuer la lecture de « SEMANTiCS 2019 « The Power of AI and Knowledge Graphs », Sept. 09-12, 2019 , Karlsruhe (Germany) [programme] »

Atelier – Du parchemin à la fouille de données. Nouveaux outils pour la création, la formalisation et l’analyse des corpus médiévaux – 28-30 octobre 2019 – Campus Condorcet (Paris)

« (…) L’objectif de cet atelier sera d’offrir une première initiation à des outils informatiques de création, de formalisation et d’analyse … Continuer la lecture de « Atelier – Du parchemin à la fouille de données. Nouveaux outils pour la création, la formalisation et l’analyse des corpus médiévaux – 28-30 octobre 2019 – Campus Condorcet (Paris) »

Application of Natural Language Processing Algorithms to the Task of Automatic Classification of Russian Scientific Texts

« This work is devoted to the study of applicability of modern methods of machine learning to the task of automatic … Continuer la lecture de « Application of Natural Language Processing Algorithms to the Task of Automatic Classification of Russian Scientific Texts »

Alignement d’un thésaurus sur GeoNames : retour d’expérience

« Alignement de ressources terminologiques. Pourquoi ? La mise en correspondance des ressources terminologiques répond à différents besoins allant du souhait … Continuer la lecture de « Alignement d’un thésaurus sur GeoNames : retour d’expérience »

CERCLES : bilan du chantier AMS

« Le chantier CERCLES American Mathematical Society Description du corpus Plusieurs bibliothèques du RNBM acquièrent des collections d’ebooks publiées par l’American … Continuer la lecture de « CERCLES : bilan du chantier AMS »

Istex: A Database of Twenty Million Scientific Papers with a Mining Tool Which Uses Named Entities

« Istex is a database of twenty million full text scientific papers bought by the French Government for the use of … Continuer la lecture de « Istex: A Database of Twenty Million Scientific Papers with a Mining Tool Which Uses Named Entities »

Le patrimoine numérique national à l’heure de l’intelligence artificielle. Le programme de recherche Corpus comme espace d’expérimentation pour les humanités numériques

« Dans un contexte d’augmentation des volumétries des données et de réduction des temps de traitement, la Bibliothèque nationale de France … Continuer la lecture de « Le patrimoine numérique national à l’heure de l’intelligence artificielle. Le programme de recherche Corpus comme espace d’expérimentation pour les humanités numériques »

Aligning Social Media Indicators with the Documents in an Open Access Repository

« In this paper we describe our current efforts towards building a framework that extends the functionality of an Open Access … Continuer la lecture de « Aligning Social Media Indicators with the Documents in an Open Access Repository »

A Hybrid Information Extraction Approach Exploiting Structured Data Within a Text Mining Process

« Many data sets encompass structured data fields with embedded free text fields. The text fields allow customers and workers to … Continuer la lecture de « A Hybrid Information Extraction Approach Exploiting Structured Data Within a Text Mining Process »

Exploitation de l’hétérogénéité dans les données textuelles. Utilisation de données produites à Madagascar

« Depuis plusieurs décennies, on observe une utilisation croissante des systèmes d’information, ce qui provoque une augmentation exponentielle des données textuelles. … Continuer la lecture de « Exploitation de l’hétérogénéité dans les données textuelles. Utilisation de données produites à Madagascar »

Grand Débat National : Lancement d’un appel à Manifestation d’Intérêt pour l’analyse des données par la Recherche

« (…) L’initiative est organisée en deux temps. Les chercheurs/ses et consortium académiques sont invités à envoyer une lettre d’intention avant … Continuer la lecture de « Grand Débat National : Lancement d’un appel à Manifestation d’Intérêt pour l’analyse des données par la Recherche »

Indexer les corpus numériques – 1er février 2019 – Mise en ligne des interventions

« La première séance du séminaire « Indexer les corpus numériques », organisée par Fabienne Vial-Bonacci (CNRS, IHRIM) et Emmanuelle Perrin (Université … Continuer la lecture de « Indexer les corpus numériques – 1er février 2019 – Mise en ligne des interventions »

Les avancées de Numapresse : pour une approche contextuelle du Text Mining

« Cet article est le premier d’une série de retours d’expériences sur les travaux menés par le projet Numapresse au cours … Continuer la lecture de « Les avancées de Numapresse : pour une approche contextuelle du Text Mining »

A Text Mining Pipeline Using Active and Deep Learning Aimed at Curating Information in Computational Neuroscience

« The curation of neuroscience entities is crucial to ongoing efforts in neuroinformatics and computational neuroscience, such as those being deployed … Continuer la lecture de « A Text Mining Pipeline Using Active and Deep Learning Aimed at Curating Information in Computational Neuroscience »

CERCLES : le premier chantier dédié aux autorités

« En 2015 naissait le dispositif CERCLES (voir le billet), mis en place par l’ABES pour accompagner, aider et valoriser un … Continuer la lecture de « CERCLES : le premier chantier dédié aux autorités »

The Logoscope: a Semi-Automatic Tool for Detecting and Documenting French New Words From the Linguistic Project to the Web Interface

« In this article we present the design and implementation of the Logoscope, the first tool especially developed to detect new … Continuer la lecture de « The Logoscope: a Semi-Automatic Tool for Detecting and Documenting French New Words From the Linguistic Project to the Web Interface »

TELMA Traitement Électronique des Manuscrits et des Archives

« TELMA –Traitement électronique des manuscrits et des archives– est une collection de l’IRHT, dédiée aux éditions critiques électroniques et à … Continuer la lecture de « TELMA Traitement Électronique des Manuscrits et des Archives »

HathiTrust Research Center Extends Non-Consumptive Research Tools to Copyrighted Materials: Expanding Research through Fair Use

« HathiTrust has reached a tremendous milestone in the history of HathiTrust and the HathiTrust Research Center’s services. Since 2011, HTRC … Continuer la lecture de « HathiTrust Research Center Extends Non-Consumptive Research Tools to Copyrighted Materials: Expanding Research through Fair Use »

Méthodologie pour identifier les terrains d’étude dans des corpus scientifiques

« Le projet interdisciplinaire TERRE-ISTEX a pour objectif d’identifier l’évolution des fronts de recherche en relation avec les territoires d’études, les … Continuer la lecture de « Méthodologie pour identifier les terrains d’étude dans des corpus scientifiques »

OpenMinTeD: A Platform Facilitating Text Mining of Scholarly Content [.pdf]

« The OpenMinTeD platform aims to bring full text Open Access scholarly content from a wide range of providers together with … Continuer la lecture de « OpenMinTeD: A Platform Facilitating Text Mining of Scholarly Content [.pdf] »

LREC 2018, Eleventh International Conference on Language Resources and Evaluation, Miyazaki, Japan [papers]

« Since the first LREC held in Granada in 1998, LREC has become the major event on Language Resources (LRs) and … Continuer la lecture de « LREC 2018, Eleventh International Conference on Language Resources and Evaluation, Miyazaki, Japan [papers] »

Projet VisaTM : l’interconnexion OpenMinTeD – AgroPortal – ISTEX, un exemple de service de Text et Data Mining pour les scientifiques français

« Présentation du projet VisaTM La création d’une offre de service en fouille de texte et de données – TDM (Text … Continuer la lecture de « Projet VisaTM : l’interconnexion OpenMinTeD – AgroPortal – ISTEX, un exemple de service de Text et Data Mining pour les scientifiques français »

Données liées et données à lier : quels outils pour quels alignements ?

« À la suite des ateliers « Décrire, transcrire et diffuser un corpus documentaire hétérogène : méthodes, formats, outils », « Géolocalisation … Continuer la lecture de « Données liées et données à lier : quels outils pour quels alignements ? »

Aligner son thesaurus avec RAMEAU en utilisant OnAGUI

« La BNF organisait le 10 juillet 2018 un atelier « Données liées et données à lier : quels outils pour quels … Continuer la lecture de « Aligner son thesaurus avec RAMEAU en utilisant OnAGUI »

Corpus automatiques des Tweets en « Humanités Numériques » et en « Digital Literacies »

« Nous présentons des corpus Twitter XML et TEI quotidiens correspondant à des extractions et analyses automatiques de twitter sur la … Continuer la lecture de « Corpus automatiques des Tweets en « Humanités Numériques » et en « Digital Literacies » »

Explorer des corpus d’images. L’IA au service du patrimoine

« Suite aux ateliers « Décrire, transcrire et diffuser un corpus documentaire hétérogène : méthodes, formats, outils » et « Géolocalisation et … Continuer la lecture de « Explorer des corpus d’images. L’IA au service du patrimoine »

Synthèse de l’enquête « Évaluation du dispositif CERCLES »

« Le dispositif CERCLES (Corrections et Enrichissements par le Réseau de Corpus de l’Enseignement Supérieur) a été lancé en 2015. Depuis, … Continuer la lecture de « Synthèse de l’enquête « Évaluation du dispositif CERCLES » »

Presenting the Nénufar Project: a Diachronic Digital Edition of the Petit Larousse Illustré

« This paper presents the Nénufar project, which aims to make several successive (free of copyright up to 1948) editions of … Continuer la lecture de « Presenting the Nénufar Project: a Diachronic Digital Edition of the Petit Larousse Illustré »

Annotation et analyse syntaxique de corpus hétérogènes [podcast]

« Comment doter le français médiéval (IXe-XVe siècles) d’une chaîne d’annotation automatique en syntaxe de dépendances ? Par Mathilde Regnault, doctorante … Continuer la lecture de « Annotation et analyse syntaxique de corpus hétérogènes [podcast] »

L’édition numérique de correspondances – guide méthodologique

« Le groupe de travail Correspondance du consortium Cahier a publié un guide méthodologique pour l’édition numérique de correspondances. L’objet du … Continuer la lecture de « L’édition numérique de correspondances – guide méthodologique »

Instagram, une source pour la recherche et l’enseignement en géographie ?

« (…) Instagram, réseau social basé sur la photographie désormais célèbre, peut-il constituer une source intéressante, pertinente et fiable pour le … Continuer la lecture de « Instagram, une source pour la recherche et l’enseignement en géographie ? »

Interopérabilités – Journées MASA – 20-22 novembre 2017, Tours – Mise en ligne des enregistrements

« Les 20, 21 et 22 novembre 2017, se sont tenues à Tours les journées MASA consacrées à l’interopérabilité des données … Continuer la lecture de « Interopérabilités – Journées MASA – 20-22 novembre 2017, Tours – Mise en ligne des enregistrements »

Géolocalisation et spatialisation de documents patrimoniaux : trois heures de partage autour de la cartographie numérique

« Dans le cadre du projet CORPUS, inscrit au plan quadriennal de la recherche 2016-2019 de la Bibliothèque nationale de France, … Continuer la lecture de « Géolocalisation et spatialisation de documents patrimoniaux : trois heures de partage autour de la cartographie numérique »

Étiquetage thématique automatisé de corpus par représentation sémantique

« Dans les corpus de textes scientifiques, certains articles issus de communautés de chercheurs différentes peuvent ne pas être décrits par … Continuer la lecture de « Étiquetage thématique automatisé de corpus par représentation sémantique »

Prototype expérimental pour l’exploration de corpus audiovisuels et textuels

« Paroles, Images et Textes des Savoirs (P.I.T.S) est une plateforme d’extraction automatique de métadonnées et d’exploration innovante des contenus audiovisuels. … Continuer la lecture de « Prototype expérimental pour l’exploration de corpus audiovisuels et textuels »

Décrire, transcrire et diffuser un corpus documentaire hétérogène : méthodes, formats, outils

« Dans le cadre du projet CORPUS, inscrit au plan quadriennal de la recherche 2016-2019 de la Bibliothèque nationale de France, … Continuer la lecture de « Décrire, transcrire et diffuser un corpus documentaire hétérogène : méthodes, formats, outils »

Researchers release largest ever public collection of British conversations

« Language experts at Lancaster University and Cambridge University Press have (…) published the largest ever public collection of transcribed British … Continuer la lecture de « Researchers release largest ever public collection of British conversations »

Tour de CLARIN: CLARIN AUSTRIA presents ‘Viennese Lexicographic Editor’ tool

« The Viennese Lexicographic Editor has been developed by the Austrian Centre for Digital Humanities and is a standalone XML editing … Continuer la lecture de « Tour de CLARIN: CLARIN AUSTRIA presents ‘Viennese Lexicographic Editor’ tool »

CERCLES : Un algorithme pour automatiser les liens 7XX, sur le corpus OpenEdition

« Lancé en 2015 par le SCD de l’Université François Rabelais de Tours – l’un des établissements ayant activement milité pour … Continuer la lecture de « CERCLES : Un algorithme pour automatiser les liens 7XX, sur le corpus OpenEdition »

Mooc Lancaster University: Corpus Linguistics: Method, Analysis, Interpretation

« Learn how to build and query corpora in this practical course The course aims to: Equip those taking the course with … Continuer la lecture de « Mooc Lancaster University: Corpus Linguistics: Method, Analysis, Interpretation »

Les tweets archivés : une manne pour la recherche

« On parle désormais de Social TV, chaque émission de radio s’adresse aussi aux auditeurs via son compte Twitter ou une … Continuer la lecture de « Les tweets archivés : une manne pour la recherche »

Copyright Clearance Center Broadens Access to Full-Text Semantic Search with New RightFind® XML for Mining Features

« Copyright Clearance Center, Inc. (CCC), a global leader in content management, copyright licensing, discovery and delivery solutions, today announced enhancements … Continuer la lecture de « Copyright Clearance Center Broadens Access to Full-Text Semantic Search with New RightFind® XML for Mining Features »

ISTEX : Entraînement du modèle fulltext de Grobid par l’équipe R&D

« À l’heure de rédaction de ce billet de blog, la plateforme ISTEX met à disposition plus de 18 millions de … Continuer la lecture de « ISTEX : Entraînement du modèle fulltext de Grobid par l’équipe R&D »

Persée ouvre son triplestore : data.persee.fr et renforce son inscription dans l’environnement des données liées

« Afin de répondre aux usages actuels des communautés scientifiques et d’aller encore plus loin dans l’exploitation et la réutilisation des … Continuer la lecture de « Persée ouvre son triplestore : data.persee.fr et renforce son inscription dans l’environnement des données liées »

Gargantext, un état de l’art collaboratif en quelques minutes

« La réalisation d’un état de l’art devient une étape à la fois scientifique, collaborative et ludique, grâce à la plateforme … Continuer la lecture de « Gargantext, un état de l’art collaboratif en quelques minutes »

Approches innovantes pour la presse ancienne numérisée : fouille et visualisation de données

« Cet article décrit comment une technique innovante de reconnaissance de mise en page (OLR, optical layout recognition) appliquée lors d’un … Continuer la lecture de « Approches innovantes pour la presse ancienne numérisée : fouille et visualisation de données »

Retour d’expérience: aide à la constitution d’un corpus bibliographique sur les études africaines

« Entre l’été 2014 et l’automne 2015, la BU a collaboré avec un groupe de chercheurs réalisant un livre blanc sur … Continuer la lecture de « Retour d’expérience: aide à la constitution d’un corpus bibliographique sur les études africaines »

OpenRefine au service de BACON : quelle évaluation pour les fichiers KBART ? [4] – Dispositif CERCLES dans le cadre de BACON

« [Lire le billet qui introduit cette série « OpenRefine au service de BACON : quelle évaluation pour les fichiers KBART ? »] … Continuer la lecture de « OpenRefine au service de BACON : quelle évaluation pour les fichiers KBART ? [4] – Dispositif CERCLES dans le cadre de BACON »

OpenRefine au service de BACON : quelle évaluation pour les fichiers KBART ? [3] – Cas pratique

[Lire le billet qui introduit cette série « OpenRefine au service de BACON : quelle évaluation pour les fichiers KBART ? »] … Continuer la lecture de « OpenRefine au service de BACON : quelle évaluation pour les fichiers KBART ? [3] – Cas pratique »

OpenRefine au service de BACON : quelle évaluation pour les fichiers KBART ? [2] – Un outil : OpenRefine

« [Lire le billet qui introduit cette série « OpenRefine au service de BACON : quelle évaluation pour les fichiers KBART ? »] … Continuer la lecture de « OpenRefine au service de BACON : quelle évaluation pour les fichiers KBART ? [2] – Un outil : OpenRefine »

OpenRefine au service de BACON : quelle évaluation pour les fichiers KBART ? [1] – Introduction

« Cette série de billets exposera la méthode d’évaluation appliquée aux fichiers KBART, transmis à l’Abes par les éditeurs francophones ayant … Continuer la lecture de « OpenRefine au service de BACON : quelle évaluation pour les fichiers KBART ? [1] – Introduction »

CERCLES : retour d’expérience du SCD de l’Université de Picardie Jules Verne sur le corpus CAIRN

« (…) Nouvelle adjointe à la gestion de la bibliothèque numérique dans mon établissement, et chargée du signalement des e-books, je … Continuer la lecture de « CERCLES : retour d’expérience du SCD de l’Université de Picardie Jules Verne sur le corpus CAIRN »

Exploiter/visualiser/explorer un corpus issu de l’OAI-PMH grâce au duo OpenRefine/Palladio

« D’une requête OAI à une exploitation des données par l’intermédiaire d’un outils d’infoviz (en passant par du nettoyage de données, … Continuer la lecture de « Exploiter/visualiser/explorer un corpus issu de l’OAI-PMH grâce au duo OpenRefine/Palladio »

Des établissements Sudoc partenaires de Gallica

« La BnF a réalisé une série de vidéos consacrée à la coopération numérique « l’Aventure de la numérisation – les … Continuer la lecture de « Des établissements Sudoc partenaires de Gallica »

ISTEX – Appel à propositions « chantiers thématiques d’usage »

« ISTEX – Initiative d’excellence en Information scientifique et technique –  lance un appel à propositions auprès des équipes de recherche … Continuer la lecture de « ISTEX – Appel à propositions « chantiers thématiques d’usage » »