Gabriela Elgarrista, Frédérique Mélanie-Becquet (LATTICE CNRS), Carmen Brando (EHESS) · PyLaia · Published November 28, 2022
Annuaires_Propietaires_Adr_Paris_1898_1923
Text Recognition
Description
Annuaires_Propietaires_Adr_Paris_1898_1923
Annuaire des propriétaires et des propriétés de Paris et du département de la Seine.
Lien dans le catalogue de la BNF : https://catalogue.bnf.fr/ark:/12148/cb32697229h
Consortium Paris Time Machine - TGIR Humanum
EHESS / CNRS / LATTICE / INRIA
169 pages au total des volumes 1898 et 1923 de l'annuaire, le choix est fait par critère alphabétique car c'est le mode d'organisation de l'information dans ce document.
118 pages pour entrainer et 51 pages pour validation.
Année 1898
accolades non segmentées
lignes de colonnes revues
150 pages de modèle d'entraînement.
7 pages pour chaque lettre de l'alphebet = 5 de données de train + 2 de test
BL et TR corrigées manuellement
OCR -> correction massive regex + correction manuelle
pas d'enrichissements typographiques
séparateurs de colonnes corrigés
accolades des 150 pages considerées comme de séparateurs à l'intérieur des colonnes
Année 1923
Constitué à partir des données avec les baseline à l'hauteur qui correspond.
Pages du modèle:
24 A
92 B
136 C
262 D
292 E
348 F-G
408 H
410 I
436 J
438 K
442 L
532 M
601 N-O
665 P
692 P-Q
697 R
811 S
831 T
875 V
912 X-Y-Z
Contributeurs: Gabriela Elgarrista, Frédérique Mélanie-Becquet (LATTICE CNRS), Carmen Brando (EHESS)
Contact : carmen.brando@ehess.fr
Try this model
Drag an image here
Select a file...PNG or JPG up to 10 Mb
Wolpi
AI Assistant
By uploading an image, you accept our terms and privacy policy.
Use this modelOpen in Transkribus
Very low error rate0.3% CER
Character Error Rate (CER) measures the percentage of characters incorrectly recognised. Lower is better. This model scored 0.3% on its validation set. As a rule of thumb, a CER below 10% is considered good for most handwritten material.
Measured on the model's own validation data. Results on your documents may differ depending on handwriting style, document condition, language, and how closely your material resembles the training data.
Words72,674
Lines13,285
Training Pages118
Model ID48293