« Avec la mise en place d’entrepôts de données cliniques, de plus en plus de données de santé sont disponibles pour … Continuer la lecture de « Clément Dalloux . « Fouille de texte et extraction d’informations dans les données cliniques » [thèse] »
Des archives à l’actualité, c’est possible avec ISTEX !
« Depuis plusieurs mois « la covid 19 » (covid 19 disease) dû à un coronavirus sévit dans le monde. Bien … Continuer la lecture de « Des archives à l’actualité, c’est possible avec ISTEX ! »
Source > blog.istex.fr, 2 juillet 2020
Beethoven250@ISTEX : écouter Beethoven autrement
« (…) Pour rendre hommage à ce grand musicien en cette année 2020, l’équipe ISTEX a souhaité créer une collection de … Continuer la lecture de « Beethoven250@ISTEX : écouter Beethoven autrement »
Une recherche sur 40 millions d’objets du patrimoine
« Le 10 mars, le CNRS et la Bibliothèque nationale de France (BnF) renouvellent une convention cadre qui fait suite à … Continuer la lecture de « Une recherche sur 40 millions d’objets du patrimoine »
Source > cnrs.fr, 9 mars 2020
Nouvelles méthodes pour la fouille et l’analyse des corpus textuels (école d’été du 28 juin au 4 juillet 2020, villa Cynthia à Fréjus)
« L’UMR Thalim en collaboration avec l’UMR LATTICE et la TGIR HUMANUM du 28 juin au 4 juillet 2020 dans le … Continuer la lecture de « Nouvelles méthodes pour la fouille et l’analyse des corpus textuels (école d’été du 28 juin au 4 juillet 2020, villa Cynthia à Fréjus) »
Nouveaux tutoriels : Cillex et Gargantext
« Le service formation vient de réaliser deux nouveaux tutoriels permettant de découvrir les outils de cartographie de données Cillex et … Continuer la lecture de « Nouveaux tutoriels : Cillex et Gargantext »
Source > inist.fr, 5 décembre 2019
Colloque DHNord 2019 : “Corpus et archives numériques”, 16 -18 octobre, Lille [vidéos]
« Le colloque DHNord réunit chaque année à la Maison Européenne des Sciences de l’Homme et de la Société (Lille) la … Continuer la lecture de « Colloque DHNord 2019 : “Corpus et archives numériques”, 16 -18 octobre, Lille [vidéos] »
A Thesaurus of Old English as Linguistic Linked Data: Using OntoLex, SKOS and lemon-tree to Bring Topical Thesauri to the Semantic Web
« In this paper, we discuss porting a topical thesaurus to the Web: A Thesaurus of Old English. By means of … Continuer la lecture de « A Thesaurus of Old English as Linguistic Linked Data: Using OntoLex, SKOS and lemon-tree to Bring Topical Thesauri to the Semantic Web »
Using Transkribus for automated text recognition of historical Bengali Books
« Are you working with digitised printed collections that you want to ‘unlock’ for keyword search and text mining? Maybe you … Continuer la lecture de « Using Transkribus for automated text recognition of historical Bengali Books »
SEMANTiCS 2019 « The Power of AI and Knowledge Graphs », Sept. 09-12, 2019 , Karlsruhe (Germany) [programme]
« SEMANTiCS conference is the leading European conference on Semantic Technologies and AI. Researchers, industry experts and business leaders can develop … Continuer la lecture de « SEMANTiCS 2019 « The Power of AI and Knowledge Graphs », Sept. 09-12, 2019 , Karlsruhe (Germany) [programme] »
Source > 2019.semantics.cc, 2019
Atelier – Du parchemin à la fouille de données. Nouveaux outils pour la création, la formalisation et l’analyse des corpus médiévaux – 28-30 octobre 2019 – Campus Condorcet (Paris)
« (…) L’objectif de cet atelier sera d’offrir une première initiation à des outils informatiques de création, de formalisation et d’analyse … Continuer la lecture de « Atelier – Du parchemin à la fouille de données. Nouveaux outils pour la création, la formalisation et l’analyse des corpus médiévaux – 28-30 octobre 2019 – Campus Condorcet (Paris) »
Application of Natural Language Processing Algorithms to the Task of Automatic Classification of Russian Scientific Texts
« This work is devoted to the study of applicability of modern methods of machine learning to the task of automatic … Continuer la lecture de « Application of Natural Language Processing Algorithms to the Task of Automatic Classification of Russian Scientific Texts »
Alignement d’un thésaurus sur GeoNames : retour d’expérience
« Alignement de ressources terminologiques. Pourquoi ? La mise en correspondance des ressources terminologiques répond à différents besoins allant du souhait … Continuer la lecture de « Alignement d’un thésaurus sur GeoNames : retour d’expérience »
Source > hal.archives-ouvertes.fr, Abdelmajid Khayari, Gilles Banzet, 2019, ⟨hal-02159910⟩
CERCLES : bilan du chantier AMS
« Le chantier CERCLES American Mathematical Society Description du corpus Plusieurs bibliothèques du RNBM acquièrent des collections d’ebooks publiées par l’American … Continuer la lecture de « CERCLES : bilan du chantier AMS »
Source > punktokomo.abes.fr, Bérengère Warneck, 11 juin 2019
Istex: A Database of Twenty Million Scientific Papers with a Mining Tool Which Uses Named Entities
« Istex is a database of twenty million full text scientific papers bought by the French Government for the use of … Continuer la lecture de « Istex: A Database of Twenty Million Scientific Papers with a Mining Tool Which Uses Named Entities »
Le patrimoine numérique national à l’heure de l’intelligence artificielle. Le programme de recherche Corpus comme espace d’expérimentation pour les humanités numériques
« Dans un contexte d’augmentation des volumétries des données et de réduction des temps de traitement, la Bibliothèque nationale de France … Continuer la lecture de « Le patrimoine numérique national à l’heure de l’intelligence artificielle. Le programme de recherche Corpus comme espace d’expérimentation pour les humanités numériques »
Aligning Social Media Indicators with the Documents in an Open Access Repository
« In this paper we describe our current efforts towards building a framework that extends the functionality of an Open Access … Continuer la lecture de « Aligning Social Media Indicators with the Documents in an Open Access Repository »
A Hybrid Information Extraction Approach Exploiting Structured Data Within a Text Mining Process
« Many data sets encompass structured data fields with embedded free text fields. The text fields allow customers and workers to … Continuer la lecture de « A Hybrid Information Extraction Approach Exploiting Structured Data Within a Text Mining Process »
Nouveau paquet R.temis
« Un nouveau paquet dénommé R.temis a été mis en ligne sur le CRAN. Il fournit des fonctions utilisables dans des … Continuer la lecture de « Nouveau paquet R.temis »
Exploitation de l’hétérogénéité dans les données textuelles. Utilisation de données produites à Madagascar
« Depuis plusieurs décennies, on observe une utilisation croissante des systèmes d’information, ce qui provoque une augmentation exponentielle des données textuelles. … Continuer la lecture de « Exploitation de l’hétérogénéité dans les données textuelles. Utilisation de données produites à Madagascar »
Grand Débat National : Lancement d’un appel à Manifestation d’Intérêt pour l’analyse des données par la Recherche
« (…) L’initiative est organisée en deux temps. Les chercheurs/ses et consortium académiques sont invités à envoyer une lettre d’intention avant … Continuer la lecture de « Grand Débat National : Lancement d’un appel à Manifestation d’Intérêt pour l’analyse des données par la Recherche »
Source > enseignementsup-recherche.gouv.fr, Communiqué - Publication, Frédérique Vidal, 20 février 2018
Indexer les corpus numériques – 1er février 2019 – Mise en ligne des interventions
« La première séance du séminaire « Indexer les corpus numériques », organisée par Fabienne Vial-Bonacci (CNRS, IHRIM) et Emmanuelle Perrin (Université … Continuer la lecture de « Indexer les corpus numériques – 1er février 2019 – Mise en ligne des interventions »
Source > cahier.hypotheses.org, Laurence Rageot, 18 février 2019
Les avancées de Numapresse : pour une approche contextuelle du Text Mining
« Cet article est le premier d’une série de retours d’expériences sur les travaux menés par le projet Numapresse au cours … Continuer la lecture de « Les avancées de Numapresse : pour une approche contextuelle du Text Mining »
Source > numapresse.org, Pierre-Carl Langlais, 22 janvier 2019
A Text Mining Pipeline Using Active and Deep Learning Aimed at Curating Information in Computational Neuroscience
« The curation of neuroscience entities is crucial to ongoing efforts in neuroinformatics and computational neuroscience, such as those being deployed … Continuer la lecture de « A Text Mining Pipeline Using Active and Deep Learning Aimed at Curating Information in Computational Neuroscience »
CERCLES : le premier chantier dédié aux autorités
« En 2015 naissait le dispositif CERCLES (voir le billet), mis en place par l’ABES pour accompagner, aider et valoriser un … Continuer la lecture de « CERCLES : le premier chantier dédié aux autorités »
Source > punktokomo.abes.fr, 9 novembre 2018
The Logoscope: a Semi-Automatic Tool for Detecting and Documenting French New Words From the Linguistic Project to the Web Interface
« In this article we present the design and implementation of the Logoscope, the first tool especially developed to detect new … Continuer la lecture de « The Logoscope: a Semi-Automatic Tool for Detecting and Documenting French New Words From the Linguistic Project to the Web Interface »
What is a lab ?
« Mes pérégrinations autour du projet Corpus continuent (pour ceux qui n’auraient pas suivi les épisodes précédents, ils se trouvent ici … Continuer la lecture de « What is a lab ? »
TELMA Traitement Électronique des Manuscrits et des Archives
« TELMA –Traitement électronique des manuscrits et des archives– est une collection de l’IRHT, dédiée aux éditions critiques électroniques et à … Continuer la lecture de « TELMA Traitement Électronique des Manuscrits et des Archives »
Source > cosme.hypotheses.org, Estelle Ingrand-Varenne, 26 septembre 2018
HathiTrust Research Center Extends Non-Consumptive Research Tools to Copyrighted Materials: Expanding Research through Fair Use
« HathiTrust has reached a tremendous milestone in the history of HathiTrust and the HathiTrust Research Center’s services. Since 2011, HTRC … Continuer la lecture de « HathiTrust Research Center Extends Non-Consumptive Research Tools to Copyrighted Materials: Expanding Research through Fair Use »
Méthodologie pour identifier les terrains d’étude dans des corpus scientifiques
« Le projet interdisciplinaire TERRE-ISTEX a pour objectif d’identifier l’évolution des fronts de recherche en relation avec les territoires d’études, les … Continuer la lecture de « Méthodologie pour identifier les terrains d’étude dans des corpus scientifiques »
OpenMinTeD: A Platform Facilitating Text Mining of Scholarly Content [.pdf]
« The OpenMinTeD platform aims to bring full text Open Access scholarly content from a wide range of providers together with … Continuer la lecture de « OpenMinTeD: A Platform Facilitating Text Mining of Scholarly Content [.pdf] »
LREC 2018, Eleventh International Conference on Language Resources and Evaluation, Miyazaki, Japan [papers]
« Since the first LREC held in Granada in 1998, LREC has become the major event on Language Resources (LRs) and … Continuer la lecture de « LREC 2018, Eleventh International Conference on Language Resources and Evaluation, Miyazaki, Japan [papers] »
Source > lrec-conf.org, 2018
Projet VisaTM : l’interconnexion OpenMinTeD – AgroPortal – ISTEX, un exemple de service de Text et Data Mining pour les scientifiques français
« Présentation du projet VisaTM La création d’une offre de service en fouille de texte et de données – TDM (Text … Continuer la lecture de « Projet VisaTM : l’interconnexion OpenMinTeD – AgroPortal – ISTEX, un exemple de service de Text et Data Mining pour les scientifiques français »
Données liées et données à lier : quels outils pour quels alignements ?
« À la suite des ateliers « Décrire, transcrire et diffuser un corpus documentaire hétérogène : méthodes, formats, outils », « Géolocalisation … Continuer la lecture de « Données liées et données à lier : quels outils pour quels alignements ? »
Source > bnf.hypotheses.org, Eleonora Moiraghi, 19 juillet 2018
Aligner son thesaurus avec RAMEAU en utilisant OnAGUI
« La BNF organisait le 10 juillet 2018 un atelier « Données liées et données à lier : quels outils pour quels … Continuer la lecture de « Aligner son thesaurus avec RAMEAU en utilisant OnAGUI »
Bienvenue dans la nouvelle version de Frantext
» Frantext est une base de données comportant 5350 références, soit 251 millions de mots, développée à l’ATILF (Analyse et … Continuer la lecture de « Bienvenue dans la nouvelle version de Frantext »
Source > frantext.fr, 2018
New Named-Entity Recognition (NER) Toolchain and Demo
« The Semantic Lab has launched a demo of the Named-Entity Recognition (NER) toolchain developed by Prof. Matt Miller, which is … Continuer la lecture de « New Named-Entity Recognition (NER) Toolchain and Demo »
Source > semlab.io, 1 mai 2018
Corpus automatiques des Tweets en « Humanités Numériques » et en « Digital Literacies »
« Nous présentons des corpus Twitter XML et TEI quotidiens correspondant à des extractions et analyses automatiques de twitter sur la … Continuer la lecture de « Corpus automatiques des Tweets en « Humanités Numériques » et en « Digital Literacies » »
Source > ttn.univ-paris13.fr, avril 2018
Explorer des corpus d’images. L’IA au service du patrimoine
« Suite aux ateliers « Décrire, transcrire et diffuser un corpus documentaire hétérogène : méthodes, formats, outils » et « Géolocalisation et … Continuer la lecture de « Explorer des corpus d’images. L’IA au service du patrimoine »
Source > bnf.hypotheses.org, Eleonora Moiraghi, 16 avril 2018
Synthèse de l’enquête « Évaluation du dispositif CERCLES »
« Le dispositif CERCLES (Corrections et Enrichissements par le Réseau de Corpus de l’Enseignement Supérieur) a été lancé en 2015. Depuis, … Continuer la lecture de « Synthèse de l’enquête « Évaluation du dispositif CERCLES » »
Source > punktokomo.abes.fr, 9 avril 2018
Presenting the Nénufar Project: a Diachronic Digital Edition of the Petit Larousse Illustré
« This paper presents the Nénufar project, which aims to make several successive (free of copyright up to 1948) editions of … Continuer la lecture de « Presenting the Nénufar Project: a Diachronic Digital Edition of the Petit Larousse Illustré »
Annotation et analyse syntaxique de corpus hétérogènes [podcast]
« Comment doter le français médiéval (IXe-XVe siècles) d’une chaîne d’annotation automatique en syntaxe de dépendances ? Par Mathilde Regnault, doctorante … Continuer la lecture de « Annotation et analyse syntaxique de corpus hétérogènes [podcast] »
Source > franceculture.fr, La Recherche montre en main, 21 mars 2018
L’édition numérique de correspondances – guide méthodologique
« Le groupe de travail Correspondance du consortium Cahier a publié un guide méthodologique pour l’édition numérique de correspondances. L’objet du … Continuer la lecture de « L’édition numérique de correspondances – guide méthodologique »
Source > cahier.hypotheses.org, février 2018
Instagram, une source pour la recherche et l’enseignement en géographie ?
« (…) Instagram, réseau social basé sur la photographie désormais célèbre, peut-il constituer une source intéressante, pertinente et fiable pour le … Continuer la lecture de « Instagram, une source pour la recherche et l’enseignement en géographie ? »
Source > cybergeo.hypotheses.org, Olivier Finance, 15 janvier 2018
Interopérabilités – Journées MASA – 20-22 novembre 2017, Tours – Mise en ligne des enregistrements
« Les 20, 21 et 22 novembre 2017, se sont tenues à Tours les journées MASA consacrées à l’interopérabilité des données … Continuer la lecture de « Interopérabilités – Journées MASA – 20-22 novembre 2017, Tours – Mise en ligne des enregistrements »
Source > masa.hypotheses.org, Laurence Rageot, 9 janvier 2018
Géolocalisation et spatialisation de documents patrimoniaux : trois heures de partage autour de la cartographie numérique
« Dans le cadre du projet CORPUS, inscrit au plan quadriennal de la recherche 2016-2019 de la Bibliothèque nationale de France, … Continuer la lecture de « Géolocalisation et spatialisation de documents patrimoniaux : trois heures de partage autour de la cartographie numérique »
Source > bnf.hypotheses.org, Eleonora Moiraghi, 20 décembre 2017
Étiquetage thématique automatisé de corpus par représentation sémantique
« Dans les corpus de textes scientifiques, certains articles issus de communautés de chercheurs différentes peuvent ne pas être décrits par … Continuer la lecture de « Étiquetage thématique automatisé de corpus par représentation sémantique »
Prototype expérimental pour l’exploration de corpus audiovisuels et textuels
« Paroles, Images et Textes des Savoirs (P.I.T.S) est une plateforme d’extraction automatique de métadonnées et d’exploration innovante des contenus audiovisuels. … Continuer la lecture de « Prototype expérimental pour l’exploration de corpus audiovisuels et textuels »
Source > fmsh.fr, décembre 2017
Décrire, transcrire et diffuser un corpus documentaire hétérogène : méthodes, formats, outils
« Dans le cadre du projet CORPUS, inscrit au plan quadriennal de la recherche 2016-2019 de la Bibliothèque nationale de France, … Continuer la lecture de « Décrire, transcrire et diffuser un corpus documentaire hétérogène : méthodes, formats, outils »
Source > bnf.hypotheses.org, Olivier Jacquot, 29 novembre 2017
Researchers release largest ever public collection of British conversations
« Language experts at Lancaster University and Cambridge University Press have (…) published the largest ever public collection of transcribed British … Continuer la lecture de « Researchers release largest ever public collection of British conversations »
Source > esrc.ac.uk, 25 septembre 2017
Tour de CLARIN: CLARIN AUSTRIA presents ‘Viennese Lexicographic Editor’ tool
« The Viennese Lexicographic Editor has been developed by the Austrian Centre for Digital Humanities and is a standalone XML editing … Continuer la lecture de « Tour de CLARIN: CLARIN AUSTRIA presents ‘Viennese Lexicographic Editor’ tool »
CERCLES : Un algorithme pour automatiser les liens 7XX, sur le corpus OpenEdition
« Lancé en 2015 par le SCD de l’Université François Rabelais de Tours – l’un des établissements ayant activement milité pour … Continuer la lecture de « CERCLES : Un algorithme pour automatiser les liens 7XX, sur le corpus OpenEdition »
Source > punktokomo.abes.fr, 17 juillet 2017
Mooc Lancaster University: Corpus Linguistics: Method, Analysis, Interpretation
« Learn how to build and query corpora in this practical course The course aims to: Equip those taking the course with … Continuer la lecture de « Mooc Lancaster University: Corpus Linguistics: Method, Analysis, Interpretation »
Source > futurelearn.com, 2017
Les tweets archivés : une manne pour la recherche
« On parle désormais de Social TV, chaque émission de radio s’adresse aussi aux auditeurs via son compte Twitter ou une … Continuer la lecture de « Les tweets archivés : une manne pour la recherche »
Source > inatheque.hypotheses.org, claude Mussou, 7 juin 2017
Présentation du projet CORPUS à la BnF
« CORPUS est un programme de recherche visant à préfigurer « un service de fourniture de corpus numériques à destination de la … Continuer la lecture de « Présentation du projet CORPUS à la BnF »
Source > webcorpora.hypotheses.org, Ariane Bouchard, 24 mai 2017
Copyright Clearance Center Broadens Access to Full-Text Semantic Search with New RightFind® XML for Mining Features
« Copyright Clearance Center, Inc. (CCC), a global leader in content management, copyright licensing, discovery and delivery solutions, today announced enhancements … Continuer la lecture de « Copyright Clearance Center Broadens Access to Full-Text Semantic Search with New RightFind® XML for Mining Features »
Source > copyright.com, 23 mai 2017
ISTEX : Entraînement du modèle fulltext de Grobid par l’équipe R&D
« À l’heure de rédaction de ce billet de blog, la plateforme ISTEX met à disposition plus de 18 millions de … Continuer la lecture de « ISTEX : Entraînement du modèle fulltext de Grobid par l’équipe R&D »
Persée ouvre son triplestore : data.persee.fr et renforce son inscription dans l’environnement des données liées
« Afin de répondre aux usages actuels des communautés scientifiques et d’aller encore plus loin dans l’exploitation et la réutilisation des … Continuer la lecture de « Persée ouvre son triplestore : data.persee.fr et renforce son inscription dans l’environnement des données liées »
Source > persee.fr, 10 février 2017
Gargantext, un état de l’art collaboratif en quelques minutes
« La réalisation d’un état de l’art devient une étape à la fois scientifique, collaborative et ludique, grâce à la plateforme … Continuer la lecture de « Gargantext, un état de l’art collaboratif en quelques minutes »
Source > innovatives.cnrs.fr, Alexandre Delanoë, UPS 3611, 2017
Approches innovantes pour la presse ancienne numérisée : fouille et visualisation de données
« Cet article décrit comment une technique innovante de reconnaissance de mise en page (OLR, optical layout recognition) appliquée lors d’un … Continuer la lecture de « Approches innovantes pour la presse ancienne numérisée : fouille et visualisation de données »
Source > bnf.hypotheses.org, Jean-Philippe Moreux, 30 décembre 2016
Retour d’expérience: aide à la constitution d’un corpus bibliographique sur les études africaines
« Entre l’été 2014 et l’automne 2015, la BU a collaboré avec un groupe de chercheurs réalisant un livre blanc sur … Continuer la lecture de « Retour d’expérience: aide à la constitution d’un corpus bibliographique sur les études africaines »
OpenRefine au service de BACON : quelle évaluation pour les fichiers KBART ? [4] – Dispositif CERCLES dans le cadre de BACON
« [Lire le billet qui introduit cette série « OpenRefine au service de BACON : quelle évaluation pour les fichiers KBART ? »] … Continuer la lecture de « OpenRefine au service de BACON : quelle évaluation pour les fichiers KBART ? [4] – Dispositif CERCLES dans le cadre de BACON »
Source > punktokomo.abes.fr, 4 octobre 2016
OpenRefine au service de BACON : quelle évaluation pour les fichiers KBART ? [3] – Cas pratique
[Lire le billet qui introduit cette série « OpenRefine au service de BACON : quelle évaluation pour les fichiers KBART ? »] … Continuer la lecture de « OpenRefine au service de BACON : quelle évaluation pour les fichiers KBART ? [3] – Cas pratique »