Structure d'un fichier PDF?

Pour un petit projet que j'ai pour analyser des fichiers pdf et de prendre une partie d'entre eux (une simple chaîne de caractères). Je voudrais utiliser python pour le faire et j'ai trouvé plusieurs bibliothèques qui sont capables de faire ce que je veux, à certains égards.

Mais maintenant, après quelques recherches, je me demande quelle est la véritable structure d'un fichier pdf, personne ne sait si il y a un spec ou quelques explications en ligne n'importe où? J'ai trouvé un lien sur adobe, mais il semble que c'est un lien mort 🙁