La saveur du moi: Faire revivre des textes de la SFFQ (avec Linux!)

2/11/2015

Faire revivre des textes de la SFFQ (avec Linux!)

On trouve, au sommaire du dernier numéro de Brins d'éternité, une réédition de l'excellente nouvelle Cheveux à l'huile d'Esther Rochon. Je suis vraiment content qu'on puisse donner un second souffle à des textes de qualité comme celui-là, surtout que le processus éditorial qui nous a permis de publier cette nouvelle a été inhabituellement geek. Je vous explique.

Brins d'éternité n'accepte que des soumissions numériques. La sélection, la direction littéraire, la correction, tout se fait directement sur ordinateur. Quand vient le temps de faire le montage, c'est une question de copier le texte d'une fenêtre à une autre. Bon, j'ai l'air de dénigrer la job du montage graphique, mais vraiment pas. C'est juste que, bon, avoir le texte numérisé, c'est, disons, un acquis, à cette étape.

Or, voilà, dans le cas de la nouvelle d'Esther, il n'y avait pas de numérique, l'auteure n'ayant pas conservé le fichier. Et comme on parle d'un texte vieux de plus de 15 ans, ça aurait peut-être été la galère à ouvrir de toute façon.

Tout n'était pas perdu, cependant: la nouvelle avait déjà été publiée dans imagine... 80, et Ariane avait accès à un exemplaire de ce numéro.

La nouvelle faisait dix pages. La retaper à la mitaine aurait été une tâche pénible, ardue, et aurait été une source d'erreur beaucoup trop grande. J'ai donc décidé de donner une chance à la reconnaissance optique de caractères (ou optical character recognition : OCR). Après un peu de recherche, je suis tombé sur tesseract, et j'ai été agréablement surpris par l'efficacité du machin. Avec un scan de la meilleure qualité possible (1200 dpi pour mon numériseur), le produit final présentait peu d'imperfections. La plupart des scories étaient en fait explicables par des taches sur le papier de la revue, en fait. Bon, il y avait bien quelques passages où tesseract se plantait solide, et sans raison apparente, mais sinon? Vraiment superbe.

Si l'OCR m'a sauvé des efforts et de la frustration, cela dit, je ne sais pas à quel point ça m'a sauvé du temps. Pour 10 pages, ça m'a pris une bonne heure et demie, si ce n'est pas deux heures. Le temps de bien placer la revue dans le numériseur, de laisser le scan prendre quelques millénaires, puis de se rendre compte qu'un coin est un peu smudgé parce qu'on a bougé légèrement pendant le processus, recommencer... Vous voyez le genre. De plus, il a fallu faire plusieurs relectures très attentives du texte, pour s'assurer qu'il ne restait pas de coquilles (ça aurait probablement été la même chose si quelqu'un avait du retaper le texte, j'imagine, mais bon).

Donc, ouais, c'était bien comme expérience, mais pas trop souvent. Gardez précieusement vos fichiers de textes littéraires, les amis. Pensez à ces pauvres futurs éditeurs et faites des backups.

7 commentaires:

richard tremblay11 février 2015 à 13 h 42
Ça va m'être utile, ça, depuis le temps que je me cherche un OCR digne de ce nom. Merci.
RépondreEffacer
Réponses
Gen11 février 2015 à 16 h 03
Deux heures pour dix pages? Non, tu n'as probablement pas sauvé tant de temps que ça comparativement à ce qu'une personne entraînée à la retranscription aurait pu faire (je tape à 60 mots minutes environ, ce qui veut dire 3600 à l'heure et je ne suis pas très rapide pour une secrétaire).
RépondreEffacer
Réponses

Ajouter un commentaire

La saveur du moi

2/11/2015

Faire revivre des textes de la SFFQ (avec Linux!)

7 commentaires:

À propos de...

Brins d'éternité #45

Bizarro

Fidèles lecteurs

Archives

Quelques liens