11 septembre 2016

Nettoyer sa base de données avec Open Refine / Google Refine

But

Améliorer la qualité des données d'une base, dédoublonner des termes équivalents .Le logiciel permet de trouver, dans une même colonne excel, les mots ou expressions presque identiques (afin d'enlever /fusionner les formes scories et avec fautes d'orthographe).

Installation

Actuellement téléchargeable sur : http://openrefine.org/download.html  
Suivre le billet : https://bibliotheques.wordpress.com/2010/11/15/google-refine-installation/


Pas à pas ...

Le logiciel s'ouvre dans un navigateur, importer son tableur et dans la colonne voulue,
  • Sélectionner cells
  • Sélectionner "Cluster and edit column"
Plusieurs méthodes sont proposées, à essayer une à une, en serrant ou augmentant le rayon  d'action (radius) au nombre lettres communes :
  • dans les keycollisions : actuellement fingerprint, cologne-phonetic, ngram-fingerprint & metaphone3. Et voici ce que peuvent détecter automatiquement en quelques secondes les types de vérifications : 
  • dans les recherches de mots voisins "nearest neighbors" : actuellement levenshtein et PPM.



Les types d'équivalents immédiatement détectables sur des listes d'objets par exemple
  • TABLE GIGOGNE / TABLE CIGOGNE
  • PORTE-PAPIERS / PORTE PAPIER
  • MEUBLE TELEVISION / MEUBLE DE TELEVISION
  • FAUTEUIL BRIDGE / FAUTEUIL DE BRIDGE
  • TABLE DE TOILETTE / tablette de toilette
  • MODELE DE TAPIS / MODELE TAPIS
  • MAQUETTE POUR FEUILLE DE PARAVENT / MAQUETTE FEUILLE PARAVENT
etc.... C'est un bon complément de lectures minutieuses / manuelles / via filtres excel. Bon nettoyages de données !

Libellés : , ,

08 mai 2014

Palme d'or pour le Rijksmuseum : des offres de reproduction /téléchargement inégalées

Lorsqu'on contacte plusieurs institutions pour avoir le maximum d'images en haute définition,  on reçoit les fichiers de toutes sortes de manières différentes. La palme est à attribuer au Rijksmuseum qui est de très très loin le meilleur ! La RMN est en revanche en bas de liste en terme de délais et complications de traitement liées à la facturation.


Lors de son lancement, en novembre 2012, le site du Rijksmuseum avait été abondamment salué  sur Internet


* Toute réutilisation est libre. Mieux  chaque image en ligne des collections est téléchargeable directement en haute définition par l'internaute avec un compte très rapide à mettre en place (2 champs et 1 clic). Du côté de l'institution, ceci permet de décharger complètement l'atelier photo de courriels et envois de fichier. Si l’œuvre n'est pas dans le domaine public, ceci est précisé.
Permalien : http://hdl.handle.net/10934/RM0001.COLLECT.17812

Des applications après téléchargement permettent de réaliser des fonds d'écran de smartphone, des posters en tout genres, des décors de voitures, vos  propres créations... Essayez par exemple de télécharger une notice. Prenez ensuite le temps d'aller voir la page Rijksstudio: Digital Innovation Think Tank :  https://www.rijksmuseum.nl/en/rijksstudio-inspiration  

* Chaque notice des collections a un permalien. Sur chaque notice précise, on peut interpeller l'institution pour une remarque, un ajout,  "Do you have a remark or extra information on this object? Please let us know!" qui a les références de ce fait avec le courriel de la page vue par l'internaute, etc. [Quand le musée des Beaux Arts de Boston propose avec login d'aider à tager les collections)

* Pour l'envoi de fichiers hors ligne ou plus volumineux (plusieurs Go), l'institution utilise le service en ligne  WeTransfer customisé par ses soins (avec vue sur le Riksmuseum) . Il a l'avantage de s'adapter aux différents navigateurs et à la langue de l'internaute.


















 


*Parallèlement à l'envoi du lien par WeTransfer, on reçoit automatiquement un courriel  assez chaleureux invitant à envoyer sa publication. La formulation est la plus agréable qu'on puisse recevoir et donne réellement envie de le faire !

You have received two links from Wetransfer.com which allows you to download the files from the Rijksmuseum.
High image quality is very important for the Rijksmuseum. We continually adapt our files to the latest quality standards, so please always order the latest version and avoid reusing old files.
Please mention the source: Rijksmuseum, Amsterdam. We would appreciate a copy of the publication for our library. You can send this to:
 
Rijksmuseum
Library
Postbus 74888
1070 DN Amsterdam
The Netherlands
Met vriendelijke groet / Best wishes
Anna van Lingen
Accountmanager Afdeling Beeld / Image Department
T +31 (0)20 6747 155

Le tout a été réalisé en 12h chrono entre la demande et l'envoi ! Palme d'or !
Il y aura quelques ajouts si je trouve quelques autres institutions susceptibles de rivaliser !
Si vous devez améliorer vos sites Internet culturels, ne manquez pas de l'explorer.

Libellés : , ,

24 février 2014

Dans une salle de lecture d'Archives dans 10 ans....?

Le secret des associations d'idées en vacances.... Une caisses-minute de supermarché, avec balance, m'a semblé bien associée à une utilité aux Archives. 

... Le lecteur commande ses archives, récupère sa boîte et doit la rendre avec le même poids.Cela évite toute erreur ou mélange de boîte avec un voisin quand on travaille à deux (assez rare), tout oubli de document sur une photocopieuse, voire deviendrait un instrument de surveillance dans une société de télésurveillance et téléprotection accrue des collections...

Une pratique aussi pour rendre les livres dont je me demande si elle n'est pas déjà fonctionnelle... Une balance de bijoutier ou d'expert, au gramme près, sans logiciel accolé... Mais si cela était ergonomique sans être soupçonneux... généralisé...et s'il était interdit d'apporter du papier blanc pour ne pas compenser les poids... !...

Libellés : , ,

20 novembre 2013

De l'application encore trop méconnue de "Google search by image" en Archives

En réalisant il y a quelques mois une exposition sur la Guerre, nous nous sommes posés la question de l'originalité ou non d'une série de plaques de verres de la Première guerre mondiale, un autre conservateur ayant le souvenir d'en avoir vu de semblables (sinon les mêmes) dans ses collections.

Cette année, pour la préparation d'une nouvelle publication, un parterre de têtes couronnées réunies dans une villa de la Côte d'Azur méritaient une identification précise. Le réflexe "Google  recherche par image" est très utile quand on présuppose ou qu'on souhaite vérifier si une image a déjà été publiée et que cela pourrait nous livrer plus d'éléments que nous n'en connaissons .... La recherche me semble encore trop peu utilisée. Elle s'améliore d'ailleurs de mois en mois ce qui peut nous laisser espérer bientôt des identifications de monuments ou lieux plus aisément ? Voici une petite démonstration en tutoriel appliqué aux archives:
Unable to display content. Adobe Flash is required.
et sa jolie version anglaise par Google sur http://www.google.com/insidesearch/features/images/searchbyimage.html

Libellés : , ,