2/11/2015

Faire revivre des textes de la SFFQ (avec Linux!)

On trouve, au sommaire du dernier numéro de Brins d'éternité, une réédition de l'excellente nouvelle Cheveux à l'huile d'Esther Rochon. Je suis vraiment content qu'on puisse donner un second souffle à des textes de qualité comme celui-là, surtout que le processus éditorial qui nous a permis de publier cette nouvelle a été inhabituellement geek. Je vous explique.

Brins d'éternité n'accepte que des soumissions numériques. La sélection, la direction littéraire, la correction, tout se fait directement sur ordinateur. Quand vient le temps de faire le montage, c'est une question de copier le texte d'une fenêtre à une autre. Bon, j'ai l'air de dénigrer la job du montage graphique, mais vraiment pas. C'est juste que, bon, avoir le texte numérisé, c'est, disons, un acquis, à cette étape.

Or, voilà, dans le cas de la nouvelle d'Esther, il n'y avait pas de numérique, l'auteure n'ayant pas conservé le fichier. Et comme on parle d'un texte vieux de plus de 15 ans, ça aurait peut-être été la galère à ouvrir de toute façon.

Tout n'était pas perdu, cependant: la nouvelle avait déjà été publiée dans imagine... 80, et Ariane avait accès à un exemplaire de ce numéro.

La nouvelle faisait dix pages. La retaper à la mitaine aurait été une tâche pénible, ardue, et aurait été une source d'erreur beaucoup trop grande. J'ai donc décidé de donner une chance à la reconnaissance optique de caractères (ou optical character recognition : OCR). Après un peu de recherche, je suis tombé sur tesseract, et j'ai été agréablement surpris par l'efficacité du machin. Avec un scan de la meilleure qualité possible (1200 dpi pour mon numériseur), le produit final présentait peu d'imperfections. La plupart des scories étaient en fait explicables par des taches sur le papier de la revue, en fait. Bon, il y avait bien quelques passages où tesseract se plantait solide, et sans raison apparente, mais sinon? Vraiment superbe.

Si l'OCR m'a sauvé des efforts et de la frustration, cela dit, je ne sais pas à quel point ça m'a sauvé du temps. Pour 10 pages, ça m'a pris une bonne heure et demie, si ce n'est pas deux heures. Le temps de bien placer la revue dans le numériseur, de laisser le scan prendre quelques millénaires, puis de se rendre compte qu'un coin est un peu smudgé parce qu'on a bougé légèrement pendant le processus, recommencer... Vous voyez le genre. De plus, il a fallu faire plusieurs relectures très attentives du texte, pour s'assurer qu'il ne restait pas de coquilles (ça aurait probablement été la même chose si quelqu'un avait du retaper le texte, j'imagine, mais bon).

Donc, ouais, c'était bien comme expérience, mais pas trop souvent. Gardez précieusement vos fichiers de textes littéraires, les amis. Pensez à ces pauvres futurs éditeurs et faites des backups.

7 commentaires:

  1. Ça va m'être utile, ça, depuis le temps que je me cherche un OCR digne de ce nom. Merci.

    RépondreEffacer
  2. Deux heures pour dix pages? Non, tu n'as probablement pas sauvé tant de temps que ça comparativement à ce qu'une personne entraînée à la retranscription aurait pu faire (je tape à 60 mots minutes environ, ce qui veut dire 3600 à l'heure et je ne suis pas très rapide pour une secrétaire).

    RépondreEffacer
    Réponses
    1. Voilà. J'aurais tendance à dire que si c'est pas plus rapide, c'est un peu plus fiable, par contre. Parce que même s'il a fallu relire la nouvelle par la suite, j'étais plus vigilant que si j'avais tout recopié à la mitaine.

      Effacer
    2. Je sais pas si c'est plus fiable, parce qu'en tapant, on fait des fautes "prévisibles" (bine au lieu de bien, etc), tandis que le OCR lui, selon mon expérience, des fois il fait des affaires bizarres (genre remplacer des t par des l, etc).

      En plus, ben en tant que secrétaire, mettons qu'on est obligées d'avoir un haut niveau de fiabilité lors des retranscriptions! ;)

      Effacer
    3. LOLOL Je suis certaine que toi et moi, Gen, on aurait réussi à rendre un travail rapide et pas mal exempt de fautes... L'expérience! ;)

      Effacer
    4. Ben, quand je dis plus fiable, c'est par rapport à ce que moi j'aurais pu produire, évidemment.

      Pis les substitutions weirds dont tu parles, même pas tant. Et 99% du temps, ce genre d'erreur est facilement repérable avec des correcteurs automatiques, anyway.

      Effacer