Comment puis-je suppose que l'encodage d'une chaîne de caractères en Perl?

J'ai une chaîne Unicode et ne sais pas ce que son encodage. Lorsque cette chaîne est lu par un programme Perl, est-il un codage par défaut Perl utilisera? Si oui, comment puis-je savoir ce que c'est?

Je suis en train d'essayer de se débarrasser de caractères non-ASCII à partir de l'entrée. J'ai trouvé ceci sur certains forum qui va le faire:

my $line = encode('ascii', normalize('KD', $myutf), sub {$_[0] = ''});

Comment le travail ci-dessus lorsque aucun encodage en entrée est-elle précisée? Faut-il préciser comme suit?

my $line = encode('ascii', normalize('KD', decode($myutf, 'input-encoding'), sub {$_[0] = ''});

Corrigez-moi si je me trompe, mais j'ai pensé que le point de l'ensemble de l'Unicode, c'est qu'il n'a pas un "codage" - tout est là.
Vous n'avez pas une chaîne Unicode. Vous avez un dossier complet d'octets qui représentent une chaîne Unicode dans certains encodage. Si vous ne connaissez pas l'encodage du fichier, puis vérifiez pour un ordre d'octet-marqueur au début du fichier. Si il n'existe pas de NOMENCLATURE, vous êtes hors de la chance.
On dirait que vous êtes de poser au moins deux questions séparées (1er et 2e alinéas).
Unicode définit un jeu de caractères. Un encodage du jeu de caractères représente sur le disque. Par exemple, UTF-8 est un encodage.

InformationsquelleAutor Maulin | 2009-12-28

30

Trouver dans quel encodage quelque chose d'inconnu utilise, il vous suffit d'essayer et de regarder. Les modules Encode::Détecter et Encode::Devinez automatiser cela. (Si vous avez de la difficulté à compiler Encode::Détecter, tenter sa fourche Encode::Détective à la place.)
```
use Encode::Detect::Detector;
my $unknown = "\x{54}\x{68}\x{69}\x{73}\x{20}\x{79}\x{65}\x{61}\x{72}\x{20}".
              "\x{49}\x{20}\x{77}\x{65}\x{6e}\x{74}\x{20}\x{74}\x{6f}\x{20}".
              "\x{b1}\x{b1}\x{be}\x{a9}\x{20}\x{50}\x{65}\x{72}\x{6c}\x{20}".
              "\x{77}\x{6f}\x{72}\x{6b}\x{73}\x{68}\x{6f}\x{70}\x{2e}";
my $encoding_name = Encode::Detect::Detector::detect($unknown);
print $encoding_name; # gb18030

use Encode;
my $string = decode($encoding_name, $unknown);
```
Je trouve encode 'ascii' est une piètre solution pour se débarrasser des caractères non-ASCII. Tout sera remplacé par le point d'interrogation; c'est trop de perte de qualité pour être utile.
```
# Bad example; don't do this.
use utf8;
use Encode;
my $string = 'This year I went to 北京 Perl workshop.';
print encode('ascii', $string); # This year I went to ?? Perl workshop.
```
Si vous voulez lisible en texte ASCII, je recommande Texte::Unidecode à la place. Cela, aussi, est un codage avec perte, mais pas terrible comme plaine encode ci-dessus.
```
use utf8;
use Text::Unidecode;
my $string = 'This year I went to 北京 Perl workshop.';
print unidecode($string); # This year I went to Bei Jing  Perl workshop.
```
Cependant, évitez ceux avec perte codages si vous pouvez l'aider. Dans le cas où vous souhaitez inverser l'opération plus tard, choisir soit l'un des PERLQQ ou XMLCREF.
```
use utf8;
use Encode qw(encode PERLQQ XMLCREF);
my $string = 'This year I went to 北京 Perl workshop.';
print encode('ascii', $string, PERLQQ);  # This year I went to \x{5317}\x{4eac} Perl workshop.
print encode('ascii', $string, XMLCREF); # This year I went to &#x5317;&#x4eac; Perl workshop.
```
- L'entrée je reçois toujours utilise le Latin de jeu de caractères. La fonction de normalisation-je utiliser serait alors convertir "Café" Cafe". Cela ne fonctionne pas dans tous les cas cependant. Compte tenu de cela, voulez-vous préfèrent encore utiliser le PERLQQ ou XMLCREF méthode?
- Il n'a pas d'importance ce que je préfère, c'est votre code et de la responsabilité, après tout, et vous êtes seul à connaître toutes les circonstances. En effet, si vous êtes heureux avec Café → Café, puis remettez votre fonction personnalisée avec Text::Unidecode. Qui ne fonctionne pas dans tous les cas.
- Merci. Je pense que je vais essayer ça.
InformationsquelleAutor daxim
4

La Coder module a une façon que vous pouvez essayer de le faire. Vous decode les premières octets avec ce que vous pensez de l'encodage. Si les octets ne représentent pas un encodage valide, il explose et vous l'attraper avec un eval. Sinon, vous obtenez en retour un correctement chaîne codée. Par exemple:
```
 use Encode;

 my $a_with_ring =
   eval { decode( 'UTF-8', "\x6b\xc5", Encode::FB_CROAK ) }
     or die "Could not decode string: $@";
```
Cela a l'inconvénient que la même séquence d'octets peut être valable dans plusieurs codages

J'ai plus à dire sur ce point dans la prochaine Efficace de Programmation Perl, 2e Édition, qui a un chapitre entier sur la façon de traiter avec Unicode. Je pense que mon éditeur se mettait en colère, si j'ai posté l'ensemble de la chose. 🙂

Vous pouvez également voir Juerd de l'Unicode des Conseils, ainsi que certains de l'Unicode docs qui viennent avec Perl.

InformationsquelleAutor brian d foy

-4

Vous pouvez utiliser le code suivant aussi, de chiffrer et de déchiffrer le code

sub ENCRYPT_DECRYPT() {
    my $Str_Message=$_[0];
    my  $Len_Str_Message=length($Str_Message);

    my  $Str_Encrypted_Message="";
    for (my $Position = 0;$Position<$Len_Str_Message;$Position++){
        my  $Key_To_Use = (($Len_Str_Message+$Position)+1);
            $Key_To_Use =(255+$Key_To_Use) % 255;
        my  $Byte_To_Be_Encrypted = substr($Str_Message, $Position, 1);
        my  $Ascii_Num_Byte_To_Encrypt = ord($Byte_To_Be_Encrypted);
        my  $Xored_Byte = $Ascii_Num_Byte_To_Encrypt ^ $Key_To_Use;
            my  $Encrypted_Byte = chr($Xored_Byte);
        $Str_Encrypted_Message .= $Encrypted_Byte;

    }
    return $Str_Encrypted_Message;
}

 my $var=&ENCRYPT_DECRYPT("hai");
 print &ENCRYPT_DECRYPT($var);

La question était de savoir encodages de texte, et non pas sur le chiffrement.

InformationsquelleAutor muruga

Vous devez vous connecter pour publier un commentaire.