Récupération de fichier binaire contenu à l'aide de Javascript, base64 encode et de renverser le décoder à l'aide de Python

Je suis en train de télécharger un fichier binaire en utilisant XMLHttpRequest (à l'aide d'une récente Webkit) et en base64 encode son contenu à l'aide de cette fonction simple:

function getBinary(file){
    var xhr = new XMLHttpRequest();  
    xhr.open("GET", file, false);  
    xhr.overrideMimeType("text/plain; charset=x-user-defined");  
    xhr.send(null);
    return xhr.responseText;
}

function base64encode(binary) {
    return btoa(unescape(encodeURIComponent(binary)));
}

var binary = getBinary('http://some.tld/sample.pdf');
var base64encoded = base64encode(binary);

Comme une note de côté, tout ce qui précède est Javascript standard des choses, y compris btoa() et encodeURIComponent(): https://developer.mozilla.org/en/DOM/window.btoa

Cela fonctionne assez bien, et je peux même décoder le base64 contenu à l'aide de Javascript:

function base64decode(base64) {
    return decodeURIComponent(escape(atob(base64)));
}

var decodedBinary = base64decode(base64encoded);
decodedBinary === binary //true

Maintenant, je veux décoder le base64 contenu à l'aide de Python qui consomme de l'chaîne JSON pour obtenir le base64encoded de la chaîne de valeur. Naïvement, c'est ce que je fais:

import urllib
import base64
# ... retrieving of base64 encoded string through JSON
base64 = "77+9UE5HDQ……………oaCgA="
source_contents = urllib.unquote(base64.b64decode(base64))
destination_file = open(destination, 'wb')
destination_file.write(source_contents)
destination_file.close()

Mais le fichier n'est pas valide, ressemble à l'opération messaed avec UTF-8, de codage ou de quelque chose qui n'est pas encore clair pour moi.

Si j'essaie de décoder UTF-8 table des matières avant de les mettre dans le fichier de destination, une erreur est générée:

import urllib
import base64
# ... retrieving of base64 encoded string through JSON
base64 = "77+9UE5HDQ……………oaCgA="
source_contents = urllib.unquote(base64.b64decode(base64)).decode('utf-8')
destination_file = open(destination, 'wb')
destination_file.write(source_contents)
destination_file.close()

$ python test.py
//...
UnicodeEncodeError: 'ascii' codec can't encode character u'\ufffd' in position 0: ordinal not in range(128)

Comme une note de côté, voici une capture d'écran de deux représentations textuelles d'un même fichier; sur la gauche: l'original; sur la droite: celui qui a été créé à partir de la base64-décodé chaîne: http://cl.ly/0U3G34110z3c132O2e2x

Est-il connu astuce pour contourner ces problèmes avec l'encodage lors de la tentative de recréer le fichier? Comment voulez-vous atteindre vous-même?

De l'aide ou de l'indice appréciée 🙂

Comme une note de côté, j'ai essayé de jouer avec le codecs module pour écrire le fichier de destination à l'aide de la 'utf-8' codec avec pas de chance, mais j'ai du loupé quelque chose quelque part.
Ce qui est étrange, comme \ufffd est très spécial: fileformat.info/info/unicode/char/fffd/index.htm
Que suppose la base64encode() fonction que j'utilise est impossible de convertir certains caractères... La chose étrange est que l'opération inverse fonctionne parfaitement en javascript...
Avez-vous essayer de vider les premiers octets de valeurs à différentes étapes. Ressemble à l'une ou à votre bibliothèque est trop intelligent et ne pas faire la convertion au niveau octet. Je suggère la création d'un simple fichier texte UTF-8 avec >255 points de code et analyser manuellement les octets de valeurs à chaque étape. Vous devriez arrêter où est l'erreur.
Je n'utilise pas de bibliothèque malheureusement... JS trucs (btoa(), encodeURIComponent() et unescape()) sont standard. Même par la partie Python, rien d'autre que stdlib substance utilisée... je vais enquêter sur l'étrange Octets valeurs de mettre ce qui semble être une vraie douleur 🙁

InformationsquelleAutor NiKo | 2011-09-10

Je suis donc répondre à moi — même et désolé pour ce que — mais je pense qu'il pourrait être utile pour quelqu'un comme perdu, comme je l'ai été 😉

Donc vous devez utiliser ArrayBuffer et définir la responseType propriété de votre XMLHttpRequest instance de l'objet à arraybuffer pour retrouver un natif de tableau d'Octets, qui peut être converti en base64 utilisant la fonction pratique (qui se trouve il y, l'auteur peut être béni ici):

function base64ArrayBuffer(arrayBuffer) {
var base64    = ''
var encodings = 'ABCDEFGHIJKLMNOPQRSTUVWXYZabcdefghijklmnopqrstuvwxyz0123456789+/'
var bytes         = new Uint8Array(arrayBuffer)
var byteLength    = bytes.byteLength
var byteRemainder = byteLength % 3
var mainLength    = byteLength - byteRemainder
var a, b, c, d
var chunk
//Main loop deals with bytes in chunks of 3
for (var i = 0; i < mainLength; i = i + 3) {
//Combine the three bytes into a single integer
chunk = (bytes[i] << 16) | (bytes[i + 1] << 8) | bytes[i + 2]
//Use bitmasks to extract 6-bit segments from the triplet
a = (chunk & 16515072) >> 18 //16515072 = (2^6 - 1) << 18
b = (chunk & 258048)   >> 12 //258048   = (2^6 - 1) << 12
c = (chunk & 4032)     >>  6 //4032     = (2^6 - 1) << 6
d = chunk & 63               //63       = 2^6 - 1
//Convert the raw binary segments to the appropriate ASCII encoding
base64 += encodings[a] + encodings[b] + encodings[c] + encodings[d]
}
//Deal with the remaining bytes and padding
if (byteRemainder == 1) {
chunk = bytes[mainLength]
a = (chunk & 252) >> 2 //252 = (2^6 - 1) << 2
//Set the 4 least significant bits to zero
b = (chunk & 3)   << 4 //3   = 2^2 - 1
base64 += encodings[a] + encodings[b] + '=='
} else if (byteRemainder == 2) {
chunk = (bytes[mainLength] << 8) | bytes[mainLength + 1]
a = (chunk & 64512) >> 10 //64512 = (2^6 - 1) << 10
b = (chunk & 1008)  >>  4 //1008  = (2^6 - 1) << 4
//Set the 2 least significant bits to zero
c = (chunk & 15)    <<  2 //15    = 2^4 - 1
base64 += encodings[a] + encodings[b] + encodings[c] + '='
}
return base64
}

Donc voici un code qui fonctionne:

var xhr = new XMLHttpRequest();
xhr.open('GET', 'http://some.tld/favicon.png', false);
xhr.responseType = 'arraybuffer';
xhr.onload = function(e) {
console.log(base64ArrayBuffer(e.currentTarget.response));
};
xhr.send();

Il enregistre un valide encodées en base64 chaîne de caractères représentant le fichier binaire contenu.

Edit: Pour les anciens navigateurs ne pas avoir accès à ArrayBuffer et avoir btoa() défaut sur le codage de caractères, voici une autre façon d'obtenir une version encodée en base 64 de toute binaire:

function getBinary(file){
var xhr = new XMLHttpRequest();
xhr.open("GET", file, false);
xhr.overrideMimeType("text/plain; charset=x-user-defined");
xhr.send(null);
return xhr.responseText;
}
function base64Encode(str) {
var CHARS = "ABCDEFGHIJKLMNOPQRSTUVWXYZabcdefghijklmnopqrstuvwxyz0123456789+/";
var out = "", i = 0, len = str.length, c1, c2, c3;
while (i < len) {
c1 = str.charCodeAt(i++) & 0xff;
if (i == len) {
out += CHARS.charAt(c1 >> 2);
out += CHARS.charAt((c1 & 0x3) << 4);
out += "==";
break;
}
c2 = str.charCodeAt(i++);
if (i == len) {
out += CHARS.charAt(c1 >> 2);
out += CHARS.charAt(((c1 & 0x3)<< 4) | ((c2 & 0xF0) >> 4));
out += CHARS.charAt((c2 & 0xF) << 2);
out += "=";
break;
}
c3 = str.charCodeAt(i++);
out += CHARS.charAt(c1 >> 2);
out += CHARS.charAt(((c1 & 0x3) << 4) | ((c2 & 0xF0) >> 4));
out += CHARS.charAt(((c2 & 0xF) << 2) | ((c3 & 0xC0) >> 6));
out += CHARS.charAt(c3 & 0x3F);
}
return out;
}
console.log(base64Encode(getBinary('http://www.google.fr/images/srpr/logo3w.png')));

Espère que cela aide les autres comme il l'a fait pour moi.

Deuxième solution ("Pour les anciens navigateurs") fonctionne dans phantomjs (webkit). Merci beaucoup 🙂
Merci, merci, merci, merci pour votre travail d'édition concernant les navigateurs plus anciens! Je peux vous l'assurer, l'excitation augmente avec le temps à la recherche d'une réponse, et ensuite de le trouver! *hugs*
IE ne semble pas avoir overrideMimeType à tous, et responseType est IE10+. Toute solution pour IE9?
comment vous y prendriez-vous le décodage en base64 dans un fichier binaire, alors? Il semble que atob produire les mêmes échecs que btoa...
Cela a été très utile pour l'intégration des fichiers de police par base64!
Cette première fonction renvoie une erreur, car il fonctionne de manière synchrone, plus de détails ici: stackoverflow.com/questions/9855127/...

InformationsquelleAutor NiKo

Vous devez vous connecter pour publier un commentaire.