Tech

Le défi de la numérisation des documents anciens

ActualitéClassé sous :informatique , bit , Europeana

La numérisation du contenu de grandes bibliothèques européennes ou américaines est un gigantesque chantier, dont l'intérêt n'a pas échappé à des géants de l'informatique comme Google, Yahoo ou Microsoft, bien décidés à s'octroyer une bonne part du gâteau. Il existe pourtant un secteur où l'Europe peut se distinguer, et c'est celui des caractères typographiques les plus difficiles à reconnaître, comme le gothique, ou les vieux manuscrits.

Vieux manuscrit (Bibliothèque d'Alexandrie)

Il y a deux ans se créait le projet Europeana, un prototype de bibliothèque en ligne développé par la Bibliothèque nationale de France, dans le cadre du projet de Bibliothèque numérique européenne. Elle faisait alors appel à la société russe Abbyy, leader mondial dans la reconnaissance automatique de caractères appliquée aux documents patrimoniaux. Même si cette dernière excelle dans ce domaine, il existe pourtant d'autres entreprises qui aimeraient pouvoir participer à ce projets, et dont les performances ne sont pas moins remarquables.

Ainsi, la jeune société toulousaine B.I.T. (Bureau Ingénieur Tomasi), en plein essor mais handicapée par... sa petite taille. "Notre technologie s'applique aussi bien à l'OCR, la reconnaissance optique de caractères imprimés, qu'à l'ICR (Intelligence character recognition), qui concerne l'écriture manuscrite comme l'identification de signatures", avance Gilbert Tomasi, son fondateur et dirigeant actuel, insistant sur la capacité de ses logiciels d'apprendre à reconnaître tous les types de caractères, depuis les incunables jusqu'aux écritures mayas.

L'enjeu est en effet de taille, et au-delà d'un simple exercice d'archivage, d'autres perspectives apparaissent. Ainsi, Gilbert Tomasi annonce que son équipe travaille actuellement à la mise au point d'un logiciel de reconnaissance de l'écriture arabe, projet pour lequel il est à la recherche d'investisseurs. Or, la particularité essentielle de cette graphie est que les caractères en sont collés entre eux, ce qui rend la différentiation plus difficile pour l'ordinateur. Tomasi estime que l'aboutissement de ces recherches sera aussi un pas décisif vers la reconnaissance optique de l'écriture manuscrite.

Déjà en matière d'archivage des données, la Zentral und Landesbibliothek Berlin a fait appel l'an dernier au B.I.T., au terme d'un appel d'offres et de quatre mois de tests, pour la numérisation des comptes-rendus des séances du parlement berlinois de 1800 à 1945. Cette masse de données représente pas moins d'un million de pages rédigées en caractères gothiques très particuliers, appelés Fraktur. La mission a été parfaitement accomplie, pour un tarif d'environ 1500 euros les 25.000 pages.

Gilbert Tomasi voudrait bien remporter d'autres affaires plus importantes, notamment en France, et il se tourne notamment vers le projet Europeana. Malheureusement dit-il en substance, le marché français lui semble inaccessible car il ne correspond pas aux critères des appels d'offres de son propre pays, son entreprise étant trop petite. Reste donc à offrir ses services à ceux qui privilégient la qualité...

Abonnez-vous à la lettre d'information La quotidienne : nos dernières actualités du jour.

!

Merci pour votre inscription.
Heureux de vous compter parmi nos lecteurs !

Cela vous intéressera aussi