Cet ensemble de données comporte les documents utilisés pour l’apprentissage des modules NER (Named Entity Recognition) du projet MeDo (
http://webmedo.msem.univ-montp2.fr/?page_id=12).
Les documents originaux ont été requêtés sur le web, convertis au format texte et nettoyés. Les fichiers ont été anonymisés en remplaçant les caractères ne correspondant pas aux annotations par des X. Les fichiers .txt correspondent aux fichiers anonymisés (encodage UTF-8).
L’annotation a été réalisée avec le logiciel Brat (
http://brat.nlplab.org/index.html). Les fichiers .ann correspondent aux résultats de l’annotation manuelle sous Brat. Le guide d'annotation est aussi disponible au téléchargement (
https://doi.org/10.23708/DAAKF1).
Les mots clés des requêtes, ainsi que les liens URL des documents originaux sont détaillés dans le fichier info.JSON joint à ce dépôt.
This dataset contains the documents used to train the NER (Named Entity Recognition) modules of the MeDo project (
http://webmedo.msem.univ-montp2.fr/?page_id=228&lang=en).
The original documents have been scraped from the web, converted into text format and cleaned. The files were anonymized by replacing all characters not corresponding to the annotations by « x ». The .txt files correspond to the anonymized files (encoded in UTF-8).
The annotation was carried out under Brat (
http://brat.nlplab.org/index.html). The .ann files correspond to the Brat outputs of the manual annotation. The annotation guide is also available (
https://doi.org/10.23708/DAAKF1).
The keywords used for the queries and the URL links to the original documents are detailed in the accompanying info.JSON file.