caradoc : un boîte à outils pour décortiquer et analyser sereinement les fichiers PDFGuillaume Endignoux,Olivier Levillain

PDF est un format de document largement utilisé, complexe, et exploité pour la diffusion de logiciel malveillant. Il semble donc pertinent de l’étudier. Pour compléter la panoplie d’outils existants, nous présentons caradoc, une boîte à outils pour disséquer des fichiers PDF de manière robuste et fiable. L’apport de caradoc est d’insister sur les aspects bas-niveau de la dissection (parsing), là où de nombreux outils partent généralement d’une structure déjà interprétée pour leur analyse. Or l’étape d’interprétation des structures bas-niveau est connue pour être complexe et pour introduire de la confusion dans les lecteurs PDF. Un article scientifique présentant notre démarche a été publié au troisième workshop LangSec en 2016. L’outil est disponible sur GitHub ainsi que sous la forme d’un paquet Debian.