IndexMatic² | Comment départager les homonymes
December 06, 2019 | IndexMatic² | fr | en
Quel que soit l'outil à votre disposition pour construire l'index d'un document InDesign, la discrimination des homographes reste un problème délicat. Seul un être humain (ou un algorithme omniscient) peut décider du référent correct à associer à une expression ambiguë. Voyons quelques stratégies pour simplifier le travail avec IndexMatic²…
1. Indexation « stylée »
Autant que faire se peut, basez votre index sur un style de caractère InDesign. C'est la solution optimale dans tous les cas de figure. Lorsque le texte indexable d'un document reçoit un style explicite, vous gardez le plein contrôle des opérations, avec la certitude qu'aucune expression parasite ne sera indexée. Sélectionnez le style cible dans IndexMatic² et envoyez votre requête ou liste de requêtes. Fin de l'histoire !
Note. — Utilisez la regex /.+/ pour capturer d'une traite toutes les expressions stylées, ou /\w+/ pour en extraire les mots individuels.
2. Nettoyage à la main ?
Dans la configuration hélas la plus ordinaire, ni les auteurs ni les préparateurs de maquette n'ont anticipé l'étape d'indexation. Il est donc trop tard pour étiqueter les données, et les styles existants ne sont généralement d'aucun secours. Première question : combien de cas parasites du genre Washington (lieu ≠ individu) votre document contient-il ?
Un petit nombre d'homonymes litigieux peut toujours être dépoussiéré manuellement. En combinaison avec la fonction Occurrences d'IndexMatic², des listes de requêtes ciblées permettront de dénombrer rapidement les problèmes potentiels. Si les statistiques révèlent que l'ouvrage comporte très peu d'instances pour les formes homonymes, autant ajuster l'index en sortie, au cas par cas.
3. Affinage des requêtes
Reste qu'un traitement manuel devient vite intolérable, notamment quand le document subit des mutations qui appellent sans cesse la régénération de l'index. Si vous avez identifié un volume sérieux d'homonymes à traiter systématiquement, le meilleur réflexe est de « resserrer votre filet », c'est-à-dire d'affiner la liste de requêtes. Supposons que l'objectif soit d'extraire les noms propres suivants :
Hepburn => $0, Katharine Davis => $0, Bette Hepburn => $0, Audrey Bergman => $0, Ingrid Garbo => $0, Greta Monroe => $0, Marilyn Taylor => $0, Elizabeth . . .
(Concernant l'indexation des patronymes, voir aussi ce tutoriel.)
Mettons que les requêtes ci-dessus fonctionnent presque toutes correctement, mais que les clés Bergman et Taylor tombent sur des concordances parasites dans certains chapitres, ceux évoquant par exemple Ingmar Bergman (≠ Ingrid) ou Taylor Swift (≠ Elizabeth).
L'idée est de réduire expressément la portée de ces deux requêtes. Typiquement, on observera que les occurrences « pertinentes » de Bergman et de Taylor sont toujours, dans le texte, précédées du prénom correspondant. Alors on consentira à l'expliciter pour ces cas particuliers :
. . . /Ingrid Bergman/s => Bergman, Ingrid /(E\.|Liz|Elizabeth) Taylor/s => Taylor, Elizabeth . . .
Problème résolu ! Remarquez en passant que la deuxième requête a été affinée plus subtilement : elle reconnaît aussi bien Liz Taylor que Elizabeth Taylor, et même la forme E. Taylor que l'on suppose non ambiguë. (La même astuce ne s'appliquerait pas à Bergman puisque, pour notre malchance, Ingmar et Ingrid ont la même initiale !)
Un autre bénéfice des expressions régulières « aux petits oignons », c'est qu'elles permettent de conserver les variantes patronymiques au sein de l'index. Ainsi :
/(\m\w+) Taylor/s => Taylor ($1)
pourra produire séparément des entrées d'index telles que Taylor (Elizabeth), Taylor (Christine), Taylor (Don), etc.
4. Faux groupe de style
Si aucune des stratégies exposées plus haut ne convient, il vous reste l'arme semi-automatique du groupe de style postiche ! Le principe est simple mais puissant : nous créons pour le document cible un groupe de styles de caractère dédié à l'indexation, et nous exclurons ponctuellement les termes indésirables de la portée de ce groupe. (Cette méthode n'est donc applicable que si les homonymes doivent être complètement ignorés de l'index.)
Étapes préparatoires dans InDesign :
(A) Créez d'abord un style de caractère neutre, SansIndexable, basé sur [Sans] et n'ajoutant aucun paramètre.
(B) Créez un groupe de style, INDEXABLE, et insérez-y SansIndexable en guise de premier membre.
(C) Si le document possède d'autres styles de caractère — et c'est probablement le cas ! —, déplacez dans le groupe INDEXABLE tous les styles appliquées à du texte susceptible d'être indexé. Le cas échéant, vous pouvez donc exclure certains styles décoratifs ou de titrage dont vous savez dès le départ qu'ils ne portent pas sur du contenu indexable.
(D) Ouvrez le dialogue Rechercher/Remplacer. Fixez Rechercher le format sur Style de caractère : [Sans] et Remplacer le format sur Style de caractère : SansIndexable (INDEXABLE), puis exécutez Tout remplacer. Il s'ensuit que toutes les portions non stylées du document sont maintenant solidaires du groupe INDEXABLE.
(E) Dernière étape, identifiez dans le document les homonymes indésirables tels que Washington (individu), Ingmar Bergman, etc. Appliquez à chaque intrus le style [Sans] au lieu de SansIndexable (si aucun formatage n'est appliqué). Dans les cas où un style du groupe INDEXABLE intervient inopinément, dupliquez ce style et déplacez sa copie hors du groupe : vous pourrez dès lors l'affecter aux passages à exclure de l'index sans perte de mise en forme.
À la fin de cette procédure, tout élément indésirable porte un style, éventuellement [Sans], extérieur au groupe INDEXABLE. Même si cette stratégie est un peu fastidieuse à mettre en place, elle peut se révéler plus payante et plus simple que l'affinage des expressions régulières, surtout si les homonymes intrus n'apparaissent qu'assez localement.
Lancez enfin IndexMatic². Sélectionnez le groupe [INDEXABLE]* (rubrique Style) et produisez l'index à partir de votre requête (ou liste de requêtes) d'origine :
Dans maintes situations on peut tirer profit également d'un filtrage selon les styles de paragraphe, calques ou intervalles de pages. Toutes ces options sont disponibles dans IndexMatic². Chaque projet présente ses propres contraintes et paramètres de mise en forme. Il est rare que les outils d'IndexMatic² ne puissent vous faciliter la tâche, même si l'intervention humaine reste nécessaire en dernière instance — du moins s'il s'agit de livrer un index raisonné et cohérent.



