
Museum für Naturkunde Berlin
Germania250.000 etichette di esemplari con metadati manoscritti che coprono due secoli. L'OCR standard ha fallito completamente — inchiostro sbiadito, carta danneggiata, scritture miste e layout non standard.
Sviluppo di un modello Smart Extract — un'IA che comprende contestualmente la struttura delle etichette. Aggiunto riconoscimento di entità nominate con arricchimento GeoNames per il tagging automatico delle specie e la risoluzione dei toponimi.
Primo impiego reale di successo di un modello Smart Extract. Dataset completo di 250.000 etichette trascritte e taggate — un modello replicabile per le collezioni di storia naturale di tutto il mondo.









