13.05.2024
Mot-clé : Traitement de corpus
02.02.2024
CERCLES : lancement d’un nouveau chantier sur le corpus Lextenso par la BU Angers
« En 2015, naissait le dispositif CERCLES (voir le billet) mis en place par l’Abes pour accompagner, aider et valoriser…18.12.2023
Litote, de la gestion de corpus à l’aide à la rédaction : Une application pour de la littérature scientifique [podcast]
« Cette semaine dans « lectures numériques » on s’intéresse au programme Litote que la chercheuse Aurore Turbiau a développé dans le cadre…17.11.2023
ISTEX : deux nouveaux corpus dans la collection mémoire
« Les corpus spécialisés ISTEX, constitués par les équipes de l’Inist, sont proposés en vue d’une exploitation en traitement automatique des…06.10.2023
Un premier corpus multi sources sur data.istex
« (…) Le corpus Machine Translation V2 est une expérimentation visant à incorporer des documents issus d’autres ressources à des…02.10.2023
Interview : LODEX, un outil open-source au service de la recherche
« L’Inist CNRS a confié à Marmelab le développement de l’outil LODEX. Nous avons déjà…19.09.2023
CERCLES : lancement d’un nouveau chantier sur le corpus Clinical Key
« En 2015, naissait le dispositif CERCLES (voir le billet) mis en place par l’Abes pour accompagner,…25.05.2023
Rapido, un an déjà !
« Lancé le 2 février 2022, Rapido vient de fêter son premier anniversaire ! Retour sur la première partie de ce…05.05.2023
CERCLES : lancement d’un nouveau chantier sur le corpus Strada lex
« En 2015, naissait le dispositif CERCLES (voir le billet) mis en place par l’Abes pour accompagner,…04.05.2023
Istex – Les corpus éditeurs sous toutes leurs facettes
« (…) Aujourd’hui, 41 corpus éditeurs sont mis à disposition pour des usages divers, qu’ils soient documentaires ou spécialisés en fouille…02.03.2023
Istex – Télécharger une liste de DOI
« Istex-DL, l’application de téléchargement de ressources issues de l’archive Istex, continue de s’améliorer pour être au plus…03.01.2023
Apports de l’approche bibliométrique et de l’outil Cortext Manager à la revue de littérature scientifique. Une application à la prise en compte de l’environnement en Sciences Régionales (1999-2019)
« Cet article présente une démarche bibliométrique originale ainsi que certaines des fonctionnalités d’un outil d’analyse bibliométrique, la plate-forme Cortext Manager,…09.12.2022
Istex à la croisée du climat et des risques naturels
« A l’instar des archives glaciaires, qui renferment la trace des climats du passé et contribuent au décryptage des changements climatiques…24.08.2022
Rappel : Appel à projets 2022 pour l’accueil de chercheurs au BnF DataLab
« La BnF et son partenaire Huma-Num lancent leur deuxième appel à projet DataLab. A destination des chercheurs qui souhaitent…04.08.2022
Dix ans de corpus d’auteurs
« De 2011 à 2021, le consortium CAHIER d’Huma-Num a réuni une soixantaine de projets en lettres et langues sur une…10.05.2022
Atelier pratique sur l’usage des ressources ISTEX – 2 juin 2022, Toulouse
« Pour faciliter la prise en main des services et des outils de constitution, de visualisation et d’exploration d’un corpus thématique,…25.01.2022
Retour sur l’analyse automatique de corpus de revues SHS
« Dans le cadre du projet Revue 2.0 et des expérimentations de la phase 2 du projet, le HN Lab a…28.09.2021
Comment mobiliser des approches de fouille de textes et d’extraction de la terminologie dans un contexte pluridisciplinaire ?
« L’analyse des masses de données nécessite l’utilisation de méthodes mêlant harmonieusement différentes disciplines comme l’informatique, les mathématiques, les statistiques. L’ensemble…25.08.2021
Update: 1201 Exemption to Enable Text and Data Mining Research
« Authors Alliance, joined by the Library Copyright Alliance and the American Association of University Professors, is…17.08.2021
Journées MASA – Partager les archives et les données archéologiques, MASA au service de la communauté – 21-22 septembre 2021
« Cette rencontre, organisée par consortium le MASA, permettra de présenter l’écosystème numérique et la palette d’outils qui le compose, ainsi…19.07.2021
ITEXT-BIO: Intelligent Term EXTraction for BIOmedical analysis
« Here, we introduce ITEXT-BIO, an intelligent process for biomedical domain terminology extraction from textual documents and subsequent analysis. The proposed…12.07.2021
Proceedings of the Workshop on Challenges in the Management of Large Corpora (CMLC-9) 2021. Limerick, 12 July 2021
« The ninth CMLC meeting continues the successful series of “Challenges in the management of large corpora” events, previously hosted at…28.06.2021
Nouveau corpus d’actualités sur data.Istex : Réfugiés – Demandeurs d’asile
« Data.Istex propose des collections de corpus d’actualités permettant d’expliquer ou de préciser le présent à partir des documents…10.06.2021
BnF DataLab : appel à projets 2021
« Le BnF DataLab Depuis une vingtaine d’années, la BnF conduit une politique en matière de numérisation de masse, d’ouverture…25.05.2021
R.temis, un paquet d’analyse textuelle
« R.temis est un paquet R dédié à l’analyse textuelle d’utilisation simple. Son principe est de faciliter les…20.05.2021
Programme du Colloque « 10 ans avec CAHIER : des corpus d’auteurs pour les humanités à leur exploitation numérique », 7-10 juin 2021 Bordeaux
« Pour sa dernière année d’existence, le consortium « Corpus d’auteurs pour les humanités : informatisation, édition, recherche » (CAHIER) souhaite…10.05.2021
Dix ans avec CAHIER: des corpus d’auteurs pour les humanités à leur exploitation numérique
« Ce document réunit les résumés des communications acceptées pour la conférence finale du consortium CAHIER. Les participants ont été invités…16.04.2021
De la protection des données à la protection de la personne : Réflexions sur l’impact des nouvelles réglementations sur la collecte des corpus
« « Dans le cadre de la collecte des corpus oraux et multimodaux en Sciences Humaines et Sociales…12.03.2021
Opscidia’s ontology generator
« Opscidia, a French startup, was the winner in the OpenAIRE open call for innovation. The team…22.12.2020
Clément Dalloux . « Fouille de texte et extraction d’informations dans les données cliniques » [thèse]
« Avec la mise en place d’entrepôts de données cliniques, de plus en plus de données de santé sont disponibles pour…06.07.2020
Des archives à l’actualité, c’est possible avec ISTEX !
« Depuis plusieurs mois « la covid 19 » (covid 19 disease) dû à un coronavirus sévit dans le monde.09.06.2020
Beethoven250@ISTEX : écouter Beethoven autrement
« (…) Pour rendre hommage à ce grand musicien en cette année 2020, l’équipe ISTEX a souhaité créer une collection de…10.03.2020
Une recherche sur 40 millions d’objets du patrimoine
« Le 10 mars, le CNRS et la Bibliothèque nationale de France (BnF) renouvellent une convention cadre qui fait suite à…08.01.2020
Nouvelles méthodes pour la fouille et l’analyse des corpus textuels (école d’été du 28 juin au 4 juillet 2020, villa Cynthia à Fréjus)
« L’UMR Thalim en collaboration avec l’UMR LATTICE et la TGIR HUMANUM du 28 juin au 4 juillet 2020 dans le…06.12.2019
Nouveaux tutoriels : Cillex et Gargantext
« Le service formation vient de réaliser deux nouveaux tutoriels permettant de découvrir…23.10.2019
Colloque DHNord 2019 : “Corpus et archives numériques”, 16 -18 octobre, Lille [vidéos]
« Le colloque DHNord réunit chaque année à la Maison Européenne des Sciences de l’Homme et de la Société (Lille) la…16.10.2019
A Thesaurus of Old English as Linguistic Linked Data: Using OntoLex, SKOS and lemon-tree to Bring Topical Thesauri to the Semantic Web
« In this paper, we discuss porting a topical thesaurus to the Web: A Thesaurus of Old English. By means of…02.09.2019
Using Transkribus for automated text recognition of historical Bengali Books
« Are you working with digitised printed collections that you want to ‘unlock’ for keyword search and text mining? Maybe you…22.08.2019
SEMANTiCS 2019 « The Power of AI and Knowledge Graphs », Sept. 09-12, 2019 , Karlsruhe (Germany) [programme]
« SEMANTiCS conference is the leading European conference on Semantic Technologies and AI. Researchers, industry experts and business leaders can develop…20.08.2019
Atelier – Du parchemin à la fouille de données. Nouveaux outils pour la création, la formalisation et l’analyse des corpus médiévaux – 28-30 octobre 2019 – Campus Condorcet (Paris)
« (…) L’objectif de cet atelier sera d’offrir une première initiation à des outils informatiques de création, de formalisation et d’analyse…13.08.2019
Application of Natural Language Processing Algorithms to the Task of Automatic Classification of Russian Scientific Texts
« This work is devoted to the study of applicability of modern methods of machine learning to the task of automatic…21.06.2019
Alignement d’un thésaurus sur GeoNames : retour d’expérience
« Alignement de ressources terminologiques. Pourquoi ? La mise en correspondance des ressources terminologiques répond à différents besoins allant du souhait…hal.archives-ouvertes.fr, Abdelmajid Khayari, Gilles Banzet, 2019, ⟨hal-02159910⟩
11.06.2019
CERCLES : bilan du chantier AMS
« Le chantier CERCLES American Mathematical Society Description du corpus Plusieurs bibliothèques du RNBM acquièrent des collections d’ebooks publiées…28.05.2019
Istex: A Database of Twenty Million Scientific Papers with a Mining Tool Which Uses Named Entities
« Istex is a database of twenty million full text scientific papers bought by the French Government for the use of…14.05.2019
Le patrimoine numérique national à l’heure de l’intelligence artificielle. Le programme de recherche Corpus comme espace d’expérimentation pour les humanités numériques
« Dans un contexte d’augmentation des volumétries des données et de réduction des temps de traitement, la Bibliothèque nationale de France…13.05.2019
Aligning Social Media Indicators with the Documents in an Open Access Repository
« In this paper we describe our current efforts towards building a framework that extends the functionality of an Open Access…10.04.2019
A Hybrid Information Extraction Approach Exploiting Structured Data Within a Text Mining Process
« Many data sets encompass structured data fields with embedded free text fields. The text fields allow customers and workers to…08.03.2019
Nouveau paquet R.temis
« Un nouveau paquet dénommé R.temis a été mis en ligne sur le CRAN. Il fournit des fonctions utilisables dans des…04.03.2019
Exploitation de l’hétérogénéité dans les données textuelles. Utilisation de données produites à Madagascar
« Depuis plusieurs décennies, on observe une utilisation croissante des systèmes d’information, ce qui provoque une augmentation exponentielle des données textuelles.21.02.2019
Grand Débat National : Lancement d’un appel à Manifestation d’Intérêt pour l’analyse des données par la Recherche
« (…) L’initiative est organisée en deux temps. Les chercheurs/ses et consortium académiques sont invités à envoyer une lettre d’intention avant…enseignementsup-recherche.gouv.fr, Communiqué - Publication, Frédérique Vidal, 20 février 2018
19.02.2019
Indexer les corpus numériques – 1er février 2019 – Mise en ligne des interventions
« La première séance du séminaire « Indexer les corpus numériques », organisée par Fabienne Vial-Bonacci (CNRS, IHRIM) et Emmanuelle Perrin (Université…23.01.2019
Les avancées de Numapresse : pour une approche contextuelle du Text Mining
« Cet article est le premier d’une série de retours d’expériences sur les travaux menés par le projet Numapresse au cours…22.11.2018
A Text Mining Pipeline Using Active and Deep Learning Aimed at Curating Information in Computational Neuroscience
« The curation of neuroscience entities is crucial to ongoing efforts in neuroinformatics and computational neuroscience, such as those being deployed…12.11.2018
CERCLES : le premier chantier dédié aux autorités
« En 2015 naissait le dispositif CERCLES (voir le billet), mis en place par l’ABES pour accompagner, aider…29.10.2018
The Logoscope: a Semi-Automatic Tool for Detecting and Documenting French New Words From the Linguistic Project to the Web Interface
« In this article we present the design and implementation of the Logoscope, the first tool especially developed to detect new…03.10.2018
What is a lab ?
« Mes pérégrinations autour du projet Corpus continuent (pour ceux qui n’auraient pas suivi les épisodes précédents, ils…27.09.2018
TELMA Traitement Électronique des Manuscrits et des Archives
« TELMA –Traitement électronique des manuscrits et des archives– est une collection de l’IRHT, dédiée…cosme.hypotheses.org, Estelle Ingrand-Varenne, 26 septembre 2018
21.09.2018
HathiTrust Research Center Extends Non-Consumptive Research Tools to Copyrighted Materials: Expanding Research through Fair Use
« HathiTrust has reached a tremendous milestone in the history of HathiTrust and the HathiTrust Research Center’s services. Since 2011, HTRC…20.08.2018
Méthodologie pour identifier les terrains d’étude dans des corpus scientifiques
« Le projet interdisciplinaire TERRE-ISTEX a pour objectif d’identifier l’évolution des fronts de recherche en relation avec les territoires d’études, les…13.08.2018
OpenMinTeD: A Platform Facilitating Text Mining of Scholarly Content [.pdf]
« The OpenMinTeD platform aims to bring full text Open Access scholarly content from a wide range of providers together with…08.08.2018
LREC 2018, Eleventh International Conference on Language Resources and Evaluation, Miyazaki, Japan [papers]
« Since the first LREC held in Granada in 1998, LREC has become the major event on Language Resources (LRs) and…31.07.2018
Projet VisaTM : l’interconnexion OpenMinTeD – AgroPortal – ISTEX, un exemple de service de Text et Data Mining pour les scientifiques français
« Présentation du projet VisaTM La création d’une offre de service en fouille de texte et de données – TDM…20.07.2018