pro[zind]

Manipuler des PDF en Python

dans Bloc-notes

Par Guillaume Ayoub (1, 2), organisé par CourtBouillon, Stella et l'AFPy. (via Meetup).

Support: sur courtbouillon.org ou archive

Il existe de nombreuses bibliothèques pour créer et modifier des documents PDF en Python, et il est parfois difficile de savoir quel outil choisir. Comme souvent, la réponse dépend de ce que l’on veut faire !

Nous ferons un petit tour des différents besoins que vous pourriez avoir concernant la manipulation des PDF, que ce soit pour créer des documents simples ou complexes, apporter des modifications à des PDF existants, ou accéder à certaines informations de leur contenu. Et bien sûr, nous découvrirons également des outils adaptés à la résolution de ces problèmes.

Si vous cherchez l’inspiration pour automatiser certaines tâches (pas particulièrement joyeuses…) que vous faites à la main sur vos documents, vous pourriez découvrir deux ou trois solutions qui pourraient bien vous faire gagner du temps !


Notes personnelles

  1. Présentation basique de la structure d'un PDF
  2. Lib de récup python
    • pdfminer: récupération de texte
    • PyPDF2; récupération de métadonnées
  3. Lib d'affichage GPL/AGPL
  4. Transformer en image
  5. Modifier un PDF en python
  6. Créer un PDF
    • Manuellement : difficile, long et maitrise de la spec nécessaire. Résultat image vectorielle. Ex. pydyf
    • interface haut niveau: liberté et faciliter une mise en page basique. Ex. borb (basique et récente), reportlab (historique et plus complète). Double licence libre/payant. Emprisonnement haut niveau du code python
    • depuis HTML/CSS: Mise en page complexe, standards solides, pas précis au pixel. Ex. Weasyprint