Mot-clé :

31.10.2024

GarganText 007 : la complexité de vos données devient votre atout

« L’équipe de GarganText, projet en humanités numériques développé au sein de l’Institut…

inshs.cnrs.fr

18.10.2024

Chaînes d’acquisition, de traitement et de publication du texte

« Né dans le contexte du consortium Ariane-HN , et face à l’émergence de l’intégration de l’intelligence artificielle dans la production…

hal.science

Continuer la lecture

13.05.2024

NEWTextMining 2 : État de l’art pour la fouille et l’analyse des corpus textuels | 30 sept.-4 oct. 2024 Sète (France)

« Cette école thématique sur les nouvelles méthodes pour la fouille et l’analyse des corpus textuels aura lieu du 30 septembre…

newtextmining2.sciencesconf.org

Continuer la lecture

02.02.2024

CERCLES : lancement d’un nouveau chantier sur le corpus Lextenso par la BU Angers

« En 2015, naissait le dispositif CERCLES (voir le billet) mis en place par l’Abes pour accompagner, aider et valoriser…

punktokomo.abes.fr

Continuer la lecture

18.12.2023

Litote, de la gestion de corpus à l’aide à la rédaction : Une application pour de la littérature scientifique [podcast]

« Cette semaine dans « lectures numériques » on s’intéresse au programme Litote que la chercheuse Aurore Turbiau a développé dans le cadre…

radiofrance.fr

Continuer la lecture

17.11.2023

ISTEX : deux nouveaux corpus dans la collection mémoire

« Les corpus spécialisés ISTEX, constitués par les équipes de l’Inist, sont proposés en vue d’une exploitation en traitement automatique des…

inist.fr/nos-actualites

Continuer la lecture

06.10.2023

Un premier corpus multi sources sur data.istex

« (…) Le corpus Machine Translation V2 est une expérimentation visant à incorporer des documents issus d’autres ressources à des…

inist.fr

Continuer la lecture

02.10.2023

Interview : LODEX, un outil open-source au service de la recherche

« L’Inist CNRS a confié à Marmelab le développement de l’outil LODEX. Nous avons déjà…

marmelab.com/blog

Continuer la lecture

19.09.2023

CERCLES : lancement d’un nouveau chantier sur le corpus Clinical Key

« En 2015, naissait le dispositif CERCLES (voir le billet) mis en place par l’Abes pour accompagner,…

punktokomo.abes.fr

Continuer la lecture

25.05.2023

Rapido, un an déjà !

« Lancé le 2 février 2022, Rapido vient de fêter son premier anniversaire ! Retour sur la première partie de ce…

info.persee.fr

Continuer la lecture

05.05.2023

CERCLES : lancement d’un nouveau chantier sur le corpus Strada lex

« En 2015, naissait le dispositif CERCLES (voir le billet) mis en place par l’Abes pour accompagner,…

punktokomo.abes.fr

Continuer la lecture

04.05.2023

Istex – Les corpus éditeurs sous toutes leurs facettes

« (…) Aujourd’hui, 41 corpus éditeurs sont mis à disposition pour des usages divers, qu’ils soient documentaires ou spécialisés en fouille…

istex.fr

Continuer la lecture

02.03.2023

Istex – Télécharger une liste de DOI

« Istex-DL, l’application de téléchargement de ressources issues de l’archive Istex, continue de s’améliorer pour être au plus…

istex.fr

Continuer la lecture

03.01.2023

Apports de l’approche bibliométrique et de l’outil Cortext Manager à la revue de littérature scientifique. Une application à la prise en compte de l’environnement en Sciences Régionales (1999-2019)

« Cet article présente une démarche bibliométrique originale ainsi que certaines des fonctionnalités d’un outil d’analyse bibliométrique, la plate-forme Cortext Manager,…

hal.archives-ouvertes.fr

Continuer la lecture

09.12.2022

Istex à la croisée du climat et des risques naturels

« A l’instar des archives glaciaires, qui renferment la trace des climats du passé et contribuent au décryptage des changements climatiques…

istex.fr

Continuer la lecture

24.08.2022

Rappel : Appel à projets 2022 pour l’accueil de chercheurs au BnF DataLab

« La BnF et son partenaire Huma-Num lancent leur deuxième appel à projet DataLab. A destination des chercheurs qui souhaitent…

bnf.hypotheses.org

Continuer la lecture

04.08.2022

Dix ans de corpus d’auteurs

« De 2011 à 2021, le consortium CAHIER d’Huma-Num a réuni une soixantaine de projets en lettres et langues sur une…

eac.ac/books

Continuer la lecture

10.05.2022

Atelier pratique sur l’usage des ressources ISTEX – 2 juin 2022, Toulouse

« Pour faciliter la prise en main des services et des outils de constitution, de visualisation et d’exploration d’un corpus thématique,…

inist.fr

Continuer la lecture

25.01.2022

Retour sur l’analyse automatique de corpus de revues SHS

« Dans le cadre du projet Revue 2.0 et des expérimentations de la phase 2 du projet, le HN Lab a…

hnlab.huma-num.fr

Continuer la lecture

28.09.2021

Comment mobiliser des approches de fouille de textes et d’extraction de la terminologie dans un contexte pluridisciplinaire ?

« L’analyse des masses de données nécessite l’utilisation de méthodes mêlant harmonieusement différentes disciplines comme l’informatique, les mathématiques, les statistiques. L’ensemble…

nss-journal.org

Continuer la lecture

25.08.2021

Update: 1201 Exemption to Enable Text and Data Mining Research

« Authors Alliance, joined by the Library Copyright Alliance and the American Association of University Professors, is…

authorsalliance.org

Continuer la lecture

17.08.2021

Journées MASA – Partager les archives et les données archéologiques, MASA au service de la communauté – 21-22 septembre 2021

« Cette rencontre, organisée par consortium le MASA, permettra de présenter l’écosystème numérique et la palette d’outils qui le compose, ainsi…

masa.hypotheses.org

Continuer la lecture

19.07.2021

ITEXT-BIO: Intelligent Term EXTraction for BIOmedical analysis

« Here, we introduce ITEXT-BIO, an intelligent process for biomedical domain terminology extraction from textual documents and subsequent analysis. The proposed…

link.springer.com

Continuer la lecture

12.07.2021

Proceedings of the Workshop on Challenges in the Management of Large Corpora (CMLC-9) 2021. Limerick, 12 July 2021

« The ninth CMLC meeting continues the successful series of “Challenges in the management of large corpora” events, previously hosted at…

ids-pub.bsz-bw.de/

Continuer la lecture

28.06.2021

Nouveau corpus d’actualités sur data.Istex : Réfugiés – Demandeurs d’asile

« Data.Istex propose des collections de corpus d’actualités permettant d’expliquer ou de préciser le présent à partir des documents…

inist.fr

Continuer la lecture

10.06.2021

BnF DataLab : appel à projets 2021

« Le BnF DataLab Depuis une vingtaine d’années, la BnF conduit une politique en matière de numérisation de masse, d’ouverture…

bnf.hypotheses.org

Continuer la lecture

25.05.2021

R.temis, un paquet d’analyse textuelle

« R.temis est un paquet R dédié à l’analyse textuelle d’utilisation simple. Son principe est de faciliter les…

mate-shs.cnrs.fr

Continuer la lecture

20.05.2021

Programme du Colloque « 10 ans avec CAHIER : des corpus d’auteurs pour les humanités à leur exploitation numérique », 7-10 juin 2021 Bordeaux

« Pour sa dernière année d’existence, le consortium « Corpus d’auteurs pour les humanités : informatisation, édition, recherche » (CAHIER) souhaite…

cahier10.sciencesconf.org

Continuer la lecture

10.05.2021

Dix ans avec CAHIER: des corpus d’auteurs pour les humanités à leur exploitation numérique

« Ce document réunit les résumés des communications acceptées pour la conférence finale du consortium CAHIER. Les participants ont été invités…

hal.archives-ouvertes.fr

Continuer la lecture

16.04.2021

De la protection des données à la protection de la personne : Réflexions sur l’impact des nouvelles réglementations sur la collecte des corpus

« « Dans le cadre de la collecte des corpus oraux et multimodaux en Sciences Humaines et Sociales…

journals.openedition.org

Continuer la lecture

12.03.2021

Opscidia’s ontology generator

« Opscidia, a French startup, was the winner in the OpenAIRE open call for innovation. The team…

openaire.eu, Mars 2021

Continuer la lecture

22.12.2020

Clément Dalloux . « Fouille de texte et extraction d’informations dans les données cliniques » [thèse]

« Avec la mise en place d’entrepôts de données cliniques, de plus en plus de données de santé sont disponibles pour…

hal.archives-ouvertes.fr, Clément Dalloux. Fouille de texte et extraction d'informations dans les données cliniques. Traitement du texte et du document. Université de Rennes 1, 2020. Français. ⟨tel-03081563⟩

Continuer la lecture

06.07.2020

Des archives à l’actualité, c’est possible avec ISTEX !

« Depuis plusieurs mois « la covid 19 » (covid 19 disease) dû à un coronavirus sévit dans le monde.

blog.istex.fr, 2 juillet 2020

Continuer la lecture

09.06.2020

Beethoven250@ISTEX : écouter Beethoven autrement

« (…) Pour rendre hommage à ce grand musicien en cette année 2020, l’équipe ISTEX a souhaité créer une collection de…

blog.istex.fr, Camille De Salabert, 8 juin 2020

Continuer la lecture

10.03.2020

Une recherche sur 40 millions d’objets du patrimoine

« Le 10 mars, le CNRS et la Bibliothèque nationale de France (BnF) renouvellent une convention cadre qui fait suite à…

cnrs.fr, 9 mars 2020

Continuer la lecture

08.01.2020

Nouvelles méthodes pour la fouille et l’analyse des corpus textuels (école d’été du 28 juin au 4 juillet 2020, villa Cynthia à Fréjus)

« L’UMR Thalim en collaboration avec l’UMR LATTICE et la TGIR HUMANUM du 28 juin au 4 juillet 2020 dans le…

humanum.hypotheses.org, pbusonera, 7 janvier 2020

Continuer la lecture

06.12.2019

Nouveaux tutoriels : Cillex et Gargantext

« Le service formation vient de réaliser deux nouveaux tutoriels permettant de découvrir…

inist.fr, 5 décembre 2019

Continuer la lecture

23.10.2019

Colloque DHNord 2019 : “Corpus et archives numériques”, 16 -18 octobre, Lille [vidéos]

« Le colloque DHNord réunit chaque année à la Maison Européenne des Sciences de l’Homme et de la Société (Lille) la…

webtv.univ-lille.fr/video, octobre 2019

Continuer la lecture

16.10.2019

A Thesaurus of Old English as Linguistic Linked Data: Using OntoLex, SKOS and lemon-tree to Bring Topical Thesauri to the Semantic Web

« In this paper, we discuss porting a topical thesaurus to the Web: A Thesaurus of Old English. By means of…

elex.link, Sander Stolk, Electronic lexicography in the 21st century. Proceedings of the eLex 2019 conference. 1-3 October 2019, Sintra, Portugal, Brno: Lexical Computing CZ, s.r.

Continuer la lecture

02.09.2019

Using Transkribus for automated text recognition of historical Bengali Books

« Are you working with digitised printed collections that you want to ‘unlock’ for keyword search and text mining? Maybe you…

blogs.bl.uk, Tom Derrick, 30 aout 2019

Continuer la lecture

22.08.2019

SEMANTiCS 2019 « The Power of AI and Knowledge Graphs », Sept. 09-12, 2019 , Karlsruhe (Germany) [programme]

« SEMANTiCS conference is the leading European conference on Semantic Technologies and AI. Researchers, industry experts and business leaders can develop…

2019.semantics.cc, 2019

Continuer la lecture

20.08.2019

Atelier – Du parchemin à la fouille de données. Nouveaux outils pour la création, la formalisation et l’analyse des corpus médiévaux – 28-30 octobre 2019 – Campus Condorcet (Paris)

« (…) L’objectif de cet atelier sera d’offrir une première initiation à des outils informatiques de création, de formalisation et d’analyse…

cosme.hypotheses.org, paulbertrand2, 19 aout 2019

Continuer la lecture

13.08.2019

Application of Natural Language Processing Algorithms to the Task of Automatic Classification of Russian Scientific Texts

« This work is devoted to the study of applicability of modern methods of machine learning to the task of automatic…

datascience.codata.org, Romanov, A., Lomotin, K. and Kozlova, E., 2019, Data Science Journal, 18(1), p.37. DOI: http://doi.org/10.5334/dsj-2019-037

Continuer la lecture

21.06.2019

Alignement d’un thésaurus sur GeoNames : retour d’expérience

« Alignement de ressources terminologiques. Pourquoi ? La mise en correspondance des ressources terminologiques répond à différents besoins allant du souhait…

hal.archives-ouvertes.fr, Abdelmajid Khayari, Gilles Banzet, 2019, ⟨hal-02159910⟩

Continuer la lecture

11.06.2019

CERCLES : bilan du chantier AMS

« Le chantier CERCLES American Mathematical Society Description du corpus Plusieurs bibliothèques du RNBM acquièrent des collections d’ebooks publiées…

punktokomo.abes.fr, Bérengère Warneck, 11 juin 2019

Continuer la lecture

28.05.2019

Istex: A Database of Twenty Million Scientific Papers with a Mining Tool Which Uses Named Entities

« Istex is a database of twenty million full text scientific papers bought by the French Government for the use of…

mdpi.com, Maurel, Denis, Morale, Enza, Thouvenin, Nicolas, Ringot, Patrice, Turri, Angel, Information 2019, 10, 178, ; https://doi.org/10.3390/info10050178

Continuer la lecture

14.05.2019

Le patrimoine numérique national à l’heure de l’intelligence artificielle. Le programme de recherche Corpus comme espace d’expérimentation pour les humanités numériques

« Dans un contexte d’augmentation des volumétries des données et de réduction des temps de traitement, la Bibliothèque nationale de France…

hal-bnf.archives-ouvertes.fr, Emmanuelle Bermès, Eleonora Moiraghi, Revue d'Intelligence Artificielle (RIA), A paraître. ⟨hal-02122073⟩

Continuer la lecture

13.05.2019

Aligning Social Media Indicators with the Documents in an Open Access Repository

« In this paper we describe our current efforts towards building a framework that extends the functionality of an Open Access…

kula.uvic.ca, Luis Meneses , Alyssa Arbuckle, Hector Lopez, Belaid Moa, Richard Furuta, Ray Siemens, février 2019, http://doi.org/10.5334/kula.44

Continuer la lecture

10.04.2019

A Hybrid Information Extraction Approach Exploiting Structured Data Within a Text Mining Process

« Many data sets encompass structured data fields with embedded free text fields. The text fields allow customers and workers to…

dl.gi.de/handle, Kiefer, C., Reimann, P. & Mitschang, B., In: Grust, T., Naumann, F., Böhm, A. et al, BTW 2019. Gesellschaft für Informatik, Bonn. (S. 149-168)

Continuer la lecture

08.03.2019

Nouveau paquet R.temis

« Un nouveau paquet dénommé R.temis a été mis en ligne sur le CRAN. Il fournit des fonctions utilisables dans des…

rtemis.hypotheses.org/, milan, 6 mars 2019

Continuer la lecture

04.03.2019

Exploitation de l’hétérogénéité dans les données textuelles. Utilisation de données produites à Madagascar

« Depuis plusieurs décennies, on observe une utilisation croissante des systèmes d’information, ce qui provoque une augmentation exponentielle des données textuelles.

publications.cirad.fr, Fize J., Roche M., Teisseire M.. 2019. Information et Communication, 2 (1) : 5 p.,

Continuer la lecture

21.02.2019

Grand Débat National : Lancement d’un appel à Manifestation d’Intérêt pour l’analyse des données par la Recherche

« (…) L’initiative est organisée en deux temps. Les chercheurs/ses et consortium académiques sont invités à envoyer une lettre d’intention avant…

enseignementsup-recherche.gouv.fr, Communiqué - Publication, Frédérique Vidal, 20 février 2018

Continuer la lecture

19.02.2019

Indexer les corpus numériques – 1er février 2019 – Mise en ligne des interventions

« La première séance du séminaire « Indexer les corpus numériques », organisée par Fabienne Vial-Bonacci (CNRS, IHRIM) et Emmanuelle Perrin (Université…

cahier.hypotheses.org, Laurence Rageot, 18 février 2019

Continuer la lecture

23.01.2019

Les avancées de Numapresse : pour une approche contextuelle du Text Mining

« Cet article est le premier d’une série de retours d’expériences sur les travaux menés par le projet Numapresse au cours…

numapresse.org, Pierre-Carl Langlais, 22 janvier 2019

Continuer la lecture

22.11.2018

A Text Mining Pipeline Using Active and Deep Learning Aimed at Curating Information in Computational Neuroscience

« The curation of neuroscience entities is crucial to ongoing efforts in neuroinformatics and computational neuroscience, such as those being deployed…

link.springer.com, Shardlow, M., Ju, M., Li, M. et al., Neuroinform (2018). https://doi.org/10.1007/s12021-018-9404-y

Continuer la lecture

12.11.2018

CERCLES : le premier chantier dédié aux autorités

« En 2015 naissait le dispositif CERCLES (voir le billet), mis en place par l’ABES pour accompagner, aider…

punktokomo.abes.fr, 9 novembre 2018

Continuer la lecture

29.10.2018

The Logoscope: a Semi-Automatic Tool for Detecting and Documenting French New Words From the Linguistic Project to the Web Interface

« In this article we present the design and implementation of the Logoscope, the first tool especially developed to detect new…

hal.inria.fr, Ingrid Falk, Delphine Bernhard, Christophe Gérard, [Research Report] Université Strasbourg. 2018, 〈hal-01896796〉

Continuer la lecture

03.10.2018

What is a lab ?

« Mes pérégrinations autour du projet Corpus continuent (pour ceux qui n’auraient pas suivi les épisodes précédents, ils…

figoblog.org, Emmanuelle Bermes, 28 septembre 2018

Continuer la lecture

27.09.2018

TELMA Traitement Électronique des Manuscrits et des Archives

« TELMA –Traitement électronique des manuscrits et des archives– est une collection de l’IRHT, dédiée…

cosme.hypotheses.org, Estelle Ingrand-Varenne, 26 septembre 2018

Continuer la lecture

21.09.2018

HathiTrust Research Center Extends Non-Consumptive Research Tools to Copyrighted Materials: Expanding Research through Fair Use

« HathiTrust has reached a tremendous milestone in the history of HathiTrust and the HathiTrust Research Center’s services. Since 2011, HTRC…

hathitrust.org, jbelle, 20 septembre 2018

Continuer la lecture

20.08.2018

Méthodologie pour identifier les terrains d’étude dans des corpus scientifiques

« Le projet interdisciplinaire TERRE-ISTEX a pour objectif d’identifier l’évolution des fronts de recherche en relation avec les territoires d’études, les…

hal.archives-ouvertes.fr, Eric Kergosien, Marie-Noëlle Bessagnet, Maguelonne Teisseire, Joachim Schöpfel, Mohammad Amin Farvardin, et al., Revue des Sciences et Technologies de l'Information - Série Document Numérique, Lavoisier, 2017, 20 (2-3), pp.11-30. 〈https://dn.revuesonline.com/article.jsp?articleId=39554〉. 〈10.3166/dn.2017.00011〉. 〈hal-01856066v2〉

Continuer la lecture

13.08.2018

OpenMinTeD: A Platform Facilitating Text Mining of Scholarly Content [.pdf]

« The OpenMinTeD platform aims to bring full text Open Access scholarly content from a wide range of providers together with…

oro.open.ac.uk, Labourable, Penny; Galanis, Dimitrios; Lempesis, Antonis; Greenwood, Mark; Knoth, Petr et.al., LREC 2018

Continuer la lecture

08.08.2018

LREC 2018, Eleventh International Conference on Language Resources and Evaluation, Miyazaki, Japan [papers]

« Since the first LREC held in Granada in 1998, LREC has become the major event on Language Resources (LRs) and…

lrec-conf.org, 2018

Continuer la lecture