Aller au contenu

OpenRefine/Import des données

Un livre de Wikilivres.

Import de données

[modifier | modifier le wikicode]

La première étape de tout projet est d'importer les données sur lesquels on veut travailler. OpenRefine accepte un grand nombre de formats de données différents : TSV, CSV, *SV, Excel (.xls et .xlsx), JSON, XML, RDF en tant XML. OpenRefine dispose de plusieurs façons de fournir ces formats, à partir d'un fichier local, d'une adresse Internet (URL), par simple copier-coller, en se connectant à une base de données (PostgreSQL, MySQL ou MariaDB) ou d'un tableur Google.

Selon Maïwenn Bourdic : "Il est possible d'importer un fichier XML qu'OpenRefine va transformer en tableau (en gros, une balise = une colonne). Dans le fichier XML à importer, enlever d'abord tout ce qui concerne la zone de déclaration. Pour un fichier XML-EAD par exemple, il est possible d'alléger le contenu du <archdesc> et ne garder que le contenu du <dsc> (en conservant quand même un fichier xml valide avec toutes les balises bien fermées)" [1].

  1. Maïwenn Bourdic, « OpenRefine, "Excel aux hormones" pour nettoyage de données" », sur https://www.patrimoine-et-numerique.fr, (consulté le 2 décembre 2019).