Comment détecter si un fichier est un fichier PDF ou TIFF?

S'il vous plaît garder avec moi comme je l'ai été jeté dans le milieu de ce projet sans connaître tous les antécédents. Si vous avez WTF questions, faites-moi confiance, je les ai aussi.

Voici le scénario: j'ai un tas de fichiers résidant sur un serveur IIS. Ils n'ont pas d'extension de fichier. Juste à nu des fichiers avec des noms comme "asda-2342-sd3rs-asd24-ut57" et ainsi de suite. Rien d'intuitif.

Le problème est que j'ai besoin de servir des fichiers sur un ASP.NET (2.0) page et afficher les fichiers tiff tiff et PDF fichiers PDF. Malheureusement, je ne sais pas qui est qui et j'ai besoin d'être en mesure de les afficher de manière appropriée dans leurs formats respectifs.

Par exemple, permet de dire qu'il y a 2 fichiers dont j'ai besoin pour afficher, on est tiff et un est PDF. La page devrait s'afficher avec une image tiff, et peut-être un lien qui permettrait d'ouvrir le fichier PDF dans un nouvel onglet/fenêtre.

Le problème:

Que ces fichiers sont tous à l'extension de moins j'ai eu la force IIS juste servir de tout ce que TIFF. Mais si je fais cela, les fichiers PDF ne s'affiche pas. Je pourrais changer de IIS pour forcer le type MIME à PDF pour fichier inconnu extensions, mais je préfère avoir le problème inverse.

http://support.microsoft.com/kb/326965

Ce problème est-il plus facile que je pense ou est-il aussi méchant que je suis dans l'attente d'?

OriginalL'auteur eviljack | 2010-04-28

asp.net c#iis pdf tiff

OK, assez de gens sont obtenir cette erreur, que je vais poster le code que j'ai pour identifier les fichiers Tiff:

private const int kTiffTagLength = 12;
private const int kHeaderSize = 2;
private const int kMinimumTiffSize = 8;
private const byte kIntelMark = 0x49;
private const byte kMotorolaMark = 0x4d;
private const ushort kTiffMagicNumber = 42;
private bool IsTiff(Stream stm)
{
stm.Seek(0);
if (stm.Length < kMinimumTiffSize)
return false;
byte[] header = new byte[kHeaderSize];
stm.Read(header, 0, header.Length);
if (header[0] != header[1] || (header[0] != kIntelMark && header[0] != kMotorolaMark))
return false;
bool isIntel = header[0] == kIntelMark;
ushort magicNumber = ReadShort(stm, isIntel);
if (magicNumber != kTiffMagicNumber)
return false;
return true;
}
private ushort ReadShort(Stream stm, bool isIntel)
{
byte[] b = new byte[2];
_stm.Read(b, 0, b.Length);
return ToShort(_isIntel, b[0], b[1]);
}
private static ushort ToShort(bool isIntel, byte b0, byte b1)
{
if (isIntel)
{
return (ushort)(((int)b1 << 8) | (int)b0);
}
else
{
return (ushort)(((int)b0 << 8) | (int)b1);
}
}

J'ai piraté à part certains beaucoup plus générale de code pour obtenir ce.

Pour le PDF, j'ai un code qui ressemble à ceci:

public bool IsPdf(Stream stm)
{
stm.Seek(0, SeekOrigin.Begin);
PdfToken token;
while ((token = GetToken(stm)) != null) 
{
if (token.TokenType == MLPdfTokenType.Comment) 
{
if (token.Text.StartsWith("%PDF-1.")) 
return true;
}
if (stm.Position > 1024)
break;
}
return false;
}

Maintenant, GetToken() est un appel à un scanner qui tokenizes un Flux de données en PDF jetons. C'est non trivial, donc je ne vais pas à la coller ici. Je suis en utilisant le générateur de jetons au lieu de regarder sous-chaîne pour éviter un problème comme ceci:

% the following is a PostScript file, NOT a PDF file
% you'll note that in our previous version, it started with %PDF-1.3,
% incorrectly marking it as a PDF
%
clippath stroke showpage

ce code est marqué comme PAS un PDF par l'extrait de code ci-dessus, tandis que d'un simple bout de code, à tort, de le marquer comme un PDF.

Je dois également souligner que la norme ISO spec est dépourvue de la mise en œuvre des notes qui ont été dans le précédent Adobe appartenant à la spécification. Le plus important de la Référence PDF, version 1.6:

Acrobat viewers require only that the header appear somewhere within
the first 1024 bytes of the file.

merci! Je vais vérifier cela ce soir
génial, ça marche!!!!
la stm.Seek(0); n'est pas pour moi, pas de compile. Je suis avec vs 2008, .net 3.5.
Désolé, je déteste avoir à mettre SeekOrigin.Se lancer dans la majorité des cas - c'est une méthode d'extension.
Qu'est-ce que GetToken() et le jeton.TokenType == MLPdfTokenType.Commentaire ? tout le code ? la bibliothèque fait partie de ce code ?

OriginalL'auteur plinth

8

TIFF peuvent être détectées en jetant un coup d'œil premiers octets http://local.wasp.uwa.edu.au/~pbourke/formats/tiff/

Les 8 premiers octets formes de l'en-tête.
Les deux premiers octets de ce qui est soit
"II" pour little endian octet de commande
ou "MM" pour big endian octet de commande.

Sur le PDF: http://www.adobe.com/devnet/livecycle/articles/lc_pdf_overview_format.pdf

L'en-tête contient une seule ligne qui
identifie la version de PDF.
Exemple: %PDF-1.6

Le doc à partir d'adobe n'est pas tout à fait exact spec. %PDF-1.x, où x est un numéro peut apparaître n'importe où dans la première 1K du fichier.
ok, ici, est la plus complète spec adobe.com/devnet/acrobat/pdfs/pdf_reference_1-7.pdf il est >30 Mo

OriginalL'auteur Andrey
4

La lecture de la spécification pour chaque format de fichier va vous dire comment faire pour identifier les fichiers de ce format.

TIFF fichiers - Vérifier les octets 1 et 2 pour 0x4D4D ou 0x4949 et octets 2 et 3 pour la valeur '42'.

La Page 13 de la spec lit:

Un fichier TIFF commence par un octet de 8
image d'en-tête de fichier, contenant les
informations suivantes: Octets 0-1: Le
l'ordre des octets utilisés dans le fichier. Juridique
les valeurs sont les suivantes: “II” (4949.H) “MM”
(4D4D.H) Dans le “II” format de l'octet
l'ordre est toujours de moins
octet significatif pour la plupart des
octet significatif, tant pour les 16-bits et
Nombres entiers de 32 bits Ce qui est appelé
little-endian ordre des octets. Dans le “MM”
le format, l'ordre des octets est toujours à partir de la plupart des
importante à la moins importante, pour
16 bits et 32 bits des nombres entiers. Cette
est appelé big-endian ordre des octets. Octets
2-3 arbitraire, mais soigneusement choisis
(42) qui identifie
le fichier en tant que fichier TIFF. L'octet
il dépend de la valeur des Octets
0-1.

PDF fichiers de commencer avec la version PDF suivie par plusieurs octets binaires. (Je pense que vous avez maintenant à l'achat de l'ISO spec pour la version actuelle.)

La Section 7.5.2

La première ligne d'un fichier PDF doit être
un en-tête composé de 5
les personnages %PDF– suivie par une version
nombre de la forme 1.N, où N est un
chiffres entre 0 et 7. Conforme
lecteur doit accepter les fichiers avec l'un de
les en-têtes suivants: %PDF–1.0,
%PDF–1.1, %PDF–1.2, %PDF–1.3, %PDF–1.4,
%PDF–1.5, %PDF–1.6, %PDF–1.7 Début
avec PDF 1.4, la Version d'entrée dans le
document du catalogue dictionnaire (situé
via l'entrée de la Racine dans le fichier de
remorque, comme décrit dans 7.5.5, "Fichier
Remorque"), si elle est présente, doit être utilisé
au lieu de la version spécifiée dans
l'en-Tête.

Si un fichier PDF contient des données binaires, comme
la plupart n' (voir 7.2, "Lexicale
Conventions"), la ligne d'en-tête est
être immédiatement suivie par un commentaire
ligne contenant au moins quatre binaire
caractères—caractères dont
les codes sont de 128 ou plus. Cela garantit
bon comportement de transfert de fichier
les applications qui inspecter les données de près de
le début d'un fichier pour déterminer
que ce soit pour traiter le contenu du fichier
sous forme de texte ou binaire.

Bien sûr, vous pourriez faire un "plus" vérifier chaque fichier en vérifiant plus de fichier des éléments spécifiques.

les exemples de code, roygbiv ?

OriginalL'auteur
3

Une liste très utile des Signatures de Fichiers aka "nombres magiques" par Gary Kessler est disponible http://www.garykessler.net/library/file_sigs.html

Un grand lien - merci!

OriginalL'auteur Shaji
3

En interne, le fichier d'informations d'en-tête devrait aider. si vous faites un faible niveau d'ouverture de fichier, de telle que StreamReader() ou FOPEN(), regarde les deux premiers caractères dans le fichier... Presque tous les fichiers de type a sa propre signature.
```
PDF always starts with "%P" (but more specifically would have like %PDF)
TIFF appears to start with "II"
Bitmap files with "BM"
Executable files with "MZ"
```
J'ai eu à traiter avec le présent dans le passé aussi... aussi pour aider à prévenir les fichiers indésirables soient envoyés à un site donné et immédiatement l'abandonner une fois la case cochée.

EDIT -- Posté exemple de code permettant de lire et de test en-tête de fichier types
```
String fn = "Example.pdf";
StreamReader sr = new StreamReader( fn );
char[] buf = new char[5];
sr.Read( buf, 0, 4);
sr.Close();
String Hdr = buf[0].ToString()
+ buf[1].ToString()
+ buf[2].ToString()
+ buf[3].ToString()
+ buf[4].ToString();
String WhatType;
if (Hdr.StartsWith("%PDF"))
WhatType = "PDF";
else if (Hdr.StartsWith("MZ"))
WhatType = "EXE or DLL";
else if (Hdr.StartsWith("BM"))
WhatType = "BMP";
else if (Hdr.StartsWith("?_"))
WhatType = "HLP (help file)";
else if (Hdr.StartsWith("\0\0\1"))
WhatType = "Icon (.ico)";
else if (Hdr.StartsWith("\0\0\2"))
WhatType = "Cursor (.cur)";
else
WhatType = "Unknown";
```
mr.DRapp, tout exemple de code ??
J'ai posté le code à jour par exemple C#
Ne doit pas être écrit "semble commencer avec" dans la partie critique de réponse! Par spec, les fichiers TIFF de commencer avec 2 octets ASCII "II" ou "MM", suivi de 2 octets (II) Intel little-endian, ou (MM) Motorola big-endian d'ordre des octets, formant l'entier 42.

OriginalL'auteur DRapp
1

Si vous allez ici, vous verrez que le TIFF commence généralement avec des "nombres magiques" 0x49 0x49 0x2A 0x00 (certains autres définitions sont également donnés), qui est les 4 premiers octets du fichier.

Alors il suffit d'utiliser ces 4 premiers octets pour déterminer si le fichier est au format TIFF ou pas.

MODIFIER, il est probablement mieux de le faire dans l'autre sens, et de détecter les PDF en premier. Les numéros de magie pour les fichiers PDF ne sont plus normalisés: Comme Socle gentiment fait remarquer qu'ils commencent par "%PDF" quelque part dans les 1024 premiers octets (0x25 0x50 0x44 0x46). source

cette magie numéros dépendent de little/big endian.
C'est proche, mais mal. Un TIFF commence avec l'une des deux signatures, 0x49 0x49 0x2a 0x00 OU 0x4d 0x4d 0x00 0x2a.
Votre de contrôle de PDF est également faux. L' %PDF besoin n'apparaissent que dans les 1024 premiers octets.

OriginalL'auteur Martin Konecny
0

Vous allez avoir à écrire une ashx pour obtenir le fichier demandé.

ensuite, votre gestionnaire doit lire les premiers octets (ou plus) pour déterminer quel est le type de fichier est vraiment-- PDF et TIFF ont "magie chiffres" en début de fichier que vous pouvez utiliser pour déterminer cela, puis définissez vos en-Têtes de Réponse en conséquence.

OriginalL'auteur Muad'Dib
0

vous pouvez utiliser Myrmec à identifier le type de fichier, cette bibliothèque utiliser le fichier octet de tête. cette bibliothèque est disponible sur nuget "Myrmec",et c'est le repo, myrmec également en charge les types mime,vous pouvez l'essayer. le code sera comme ceci :
```
//create a sniffer instance.
Sniffer sniffer = new Sniffer();
//populate with mata data.
sniffer.Populate(FileTypes.CommonFileTypes);
//get file head byte, may be 20 bytes enough.
byte[] fileHead = ReadFileHead();
//start match.
List<string> results = sniffer.Match(fileHead);
```
et obtenir type mime :
```
List<string> result = sniffer.Match(head);
```
chaîne mimeType = MimeTypes.GetMimeType(le résultat.First());

mais qui prennent en charge tiff seulement "49 49 2A 00" et "4D 4D 00 2A" deux signature, si vous avez plus, vous pouvez ajouter votre auto, peut-être vous pouvez voir le fichier lisezmoi de myrmec pour obtenir de l'aide. myrmec dépôt github

OriginalL'auteur RocketRobin

Vous devez vous connecter pour publier un commentaire.