Manipuler une chaîne de 30 millions de caractères

Je suis le téléchargement d'un fichier CSV à partir d'un autre serveur comme un flux de données à partir d'un fournisseur.

J'utilise curl pour obtenir le contenu du fichier et de l'enregistrer dans une variable appelée $contents.

Je peux accéder à la partie, mais j'ai essayé d'exploser par \r et \n pour obtenir un tableau de lignes, mais il échoue avec un "out of memory' erreur.

Je echo strlen($contents) et c'est environ 30,5 millions de caractères.

J'ai besoin de manipuler les valeurs et les insérer dans une base de données. Que dois-je faire pour éviter l'allocation de la mémoire des erreurs?

source d'informationauteur JD Isaacks | 2009-08-27

memory-management php

17

PHP est l'étouffement parce qu'il est à cours de mémoire. Au lieu d'avoir curl remplir une variable PHP avec le contenu du fichier, utilisez la
```
CURLOPT_FILE
```
option pour enregistrer le fichier sur le disque au lieu.
```
//pseudo, untested code to give you the idea

$fp = fopen('path/to/save/file', 'w');
curl_setopt($ch, CURLOPT_FILE, $fp);
curl_exec ($ch);
curl_close ($ch);
fclose($fp);
```
Puis, une fois le fichier enregistré, au lieu d'utiliser le file ou file_get_contents fonctions (qui serait de charger tout le fichier en mémoire, tuant PHP), l'utilisation fopen et fgets pour lire le fichier ligne par ligne.
49

Comme d'autres réponses a dit :
- vous ne pouvez pas avoir tout cela dans la mémoire
- une solution serait d'utiliser CURLOPT_FILE
Mais, vous ne pouvez vraiment créer un fichier ; vous pourriez vouloir travailler avec les données dans la mémoire... l'Utiliser dès qu'il "arrive".

Une solution possible pourrait être definind vous propre gestionnaire de flux, et d'utiliser celui-ci, au lieu d'un fichier réel, avec CURLOPT_FILE

Tout d'abord, voir :
Et maintenant, passons à un exemple.

Tout d'abord, nous allons créer notre gestionnaire de flux de classe :
```
class MyStream {
    protected $buffer;

    function stream_open($path, $mode, $options, &$opened_path) {
        //Has to be declared, it seems...
        return true;
    }

    public function stream_write($data) {
        //Extract the lines ; on y tests, data was 8192 bytes long ; never more
        $lines = explode("\n", $data);

        //The buffer contains the end of the last line from previous time
        //=> Is goes at the beginning of the first line we are getting this time
        $lines[0] = $this->buffer . $lines[0];

        //And the last line os only partial
        //=> save it for next time, and remove it from the list this time
        $nb_lines = count($lines);
        $this->buffer = $lines[$nb_lines-1];
        unset($lines[$nb_lines-1]);

        //Here, do your work with the lines you have in the buffer
        var_dump($lines);
        echo '<hr />';

        return strlen($data);
    }
}
```
Ce que je fais, c'est :
- travail sur les blocs de données (j'utilise var_dump, mais vous feriez vos trucs habituels au lieu de cela) quand ils arrivent
- Noter que vous n'obtenez pas de "lignes" : la fin d'une ligne est le début d'un morceau, et le début de cette ligne a été à la fin du bloc précédent ; donc, vous devez garder certaines parties d'un chunck entre les appels à stream_write
Ensuite, nous avons enregistrer ce gestionnaire de flux, pour être utilisé avec le pseudo-protocole "test" :
```
//Register the wrapper
stream_wrapper_register("test", "MyStream")
    or die("Failed to register protocol");
```
Et, maintenant, nous faisons de notre demande curl, comme nous le feriez lors de la rédaction d'un "vrai" fichier, comme d'autres réponses proposées :
```
//Open the "file"
$fp = fopen("test://MyTestVariableInMemory", "r+");

//Configuration of curl
$ch = curl_init();
curl_setopt($ch, CURLOPT_URL, "http://www.rue89.com/");
curl_setopt($ch, CURLOPT_HEADER, 0);
curl_setopt($ch, CURLOPT_BUFFERSIZE, 256);
curl_setopt($ch, CURLOPT_RETURNTRANSFER, true);
curl_setopt($ch, CURLOPT_FILE, $fp);    //Data will be sent to our stream ;-)

curl_exec($ch);

curl_close($ch);

//Don't forget to close the "file" /stream
fclose($fp);
```
Remarque nous ne travaillons pas avec un vrai fichier, mais avec notre pseudo-protocole.

De cette façon, chaque fois qu'un bloc de données arrive, MyStream::stream_write méthode sera appelée, et sera en mesure de travailler sur une petite quantité de données (quand je l'ai testé, j'ai toujours eu de 8192 octets, quelle que soit la valeur que j'ai utilisé pour CURLOPT_BUFFERSIZE)

Quelques remarques :
- Vous avez besoin de tester ce plus que je n'ai, évidemment
- mon stream_write mise en œuvre ne sera probablement pas fonctionner si les lignes sont plus de 8192 octets ; à vous de patch 😉
- Il ne se veut qu'un peu de pointeurs, et non pas une solution de travail : vous avez à tester (encore une fois), et probablement le code un peu plus !
Encore, j'espère que cette aide 😉

Amusez-vous !

Darren Cuire commentaire de Pascal MARTIN réponse est vraiment intéressant. Moderne, PHP+Curl versions, la CURLOPT_WRITEFUNCTION option peut être définie de sorte CURL appelle une fonction de rappel pour chaque reçu "morceau" de données. Plus précisément, le "callable" sera reçu à deux paramètres, le premier avec l'invocation curl objet, et la seconde avec le segment de données. La fonction doit retourner strlen($data) pour curl continuer à envoyer plus de données.

Callables peut être des méthodes en PHP. À l'aide de tout cela, j'ai développé une solution que je trouve plus lisible que la précédente (bien que Pascal Martin réponse est vraiment super, les choses ont changé depuis). J'ai utilisé les attributs de la simplicité, mais je suis sûr que les lecteurs pourraient s'adapter et d'améliorer le code. Vous pouvez même annuler la demande CURL, quand un certain nombre de lignes (ou d'octets) ont été atteints. J'espère que cela serait utile pour les autres.

<?
class SplitCurlByLines {

    public function curlCallback($curl, $data) {

        $this->currentLine .= $data;
        $lines = explode("\n", $this->currentLine);
        //The last line could be unfinished. We should not
        //proccess it yet.
        $numLines = count($lines) - 1;
        $this->currentLine = $lines[$numLines]; //Save for the next callback.

        for ($i = 0; $i < $numLines; ++$i) {
            $this->processLine($lines[$i]); //Do whatever you want
            ++$this->totalLineCount; //Statistics.
            $this->totalLength += strlen($lines[$i]) + 1;
        }
        return strlen($data); //Ask curl for more data (!= value will stop).

    }

    public function processLine($str) {
        //Do what ever you want (split CSV, ...).
        echo $str . "\n";
    }

    public $currentLine = '';
    public $totalLineCount = 0;
    public $totalLength = 0;

} //SplitCurlByLines

//Just for testing, I will echo the content of Stackoverflow
//main page. To avoid artifacts, I will inform the browser about
//plain text MIME type, so the source code should be vissible.
Header('Content-type: text/plain');

$splitter = new SplitCurlByLines();

//Configuration of curl
$ch = curl_init();
curl_setopt($ch, CURLOPT_URL, "http://stackoverflow.com/");
curl_setopt($ch, CURLOPT_WRITEFUNCTION, array($splitter, 'curlCallback'));

curl_exec($ch);

//Process the last line.
$splitter->processLine($splitter->currentLine);

curl_close($ch);

error_log($splitter->totalLineCount . " lines; " .
 $splitter->totalLength . " bytes.");
?>

5

Vous pourriez envisager de les sauver dans un fichier temporaire, puis le lire ligne par ligne à l'aide de fgets ou fgetcsv.

De cette façon, vous évitez les initiales grand tableau que vous obtenez à partir d'exploser telle une chaîne de grande taille.

Vous devez vous connecter pour publier un commentaire.