Télécharger le fichier en utilisant wget modification de l'encodage de texte
La page web que je veux obtenir windows-1251 encodage de caractères.
Est-il un moyen de ne pas tout simplement de téléchargement de cette page, mais.. euh.. convertir le texte à l'intérieur d'un uft-8?
J'ai essayé d'ajouter des paramètres supplémentaires à wget comme
--header='Accept-Charset: utf-8'
mais pas de chance.
OriginalL'auteur Astro | 2013-03-30
Vous devez vous connecter pour publier un commentaire.
Vous pouvez utiliser
pour convertir l'encodage. Voir https://wiki.archlinux.org/index.php/Convert_a_text_file%27s_encoding
Peut-être pas directement, mais que diriez -
wget -O ./tmp.htm http://www.popmech.ru/article/12858-kosmicheskiy-grom/ && iconv -f ISO-8859-1 -t UTF-8 ./tmp.htm > ./output.htm
ouais, ça fonctionne (seulement il devrait être -f=windows-1251), mais le problème avec cette méthode est que nous devons connaître le jeu de caractères avant d'exécuter cette commande.
OriginalL'auteur NoBugs