Rapide CSV analyse

J'ai un serveur java app télécharger le fichier CSV et l'analyse. L'analyse peut prendre de 5 à 45 minutes, et se produit à chaque heure.Cette méthode est un goulot d'étranglement de l'application de sorte qu'il n'est pas prématuré d'optimisation. Le code pour l'instant:

        client.executeMethod(method);
        InputStream in = method.getResponseBodyAsStream(); //this is http stream

        String line;
        String[] record;

        reader = new BufferedReader(new InputStreamReader(in), 65536);

        try {
            //read the header line
            line = reader.readLine();
            //some code
            while ((line = reader.readLine()) != null) {
                 //more code

                 line = line.replaceAll("\"\"", "\"NULL\"");

                 //Now remove all of the quotes
                 line = line.replaceAll("\"", "");     


                 if (!line.startsWith("ERROR"){
                   //bla bla 
                    continue;
                 }

                 record = line.split(",");
                 //more error handling
                 //build the object and put it in HashMap
         }
         //exceptions handling, closing connection and reader

Est-il une bibliothèque existante qui pourrait m'aider à accélérer les choses? Puis-je améliorer le code existant?

Quelle est la taille du fichier? Et avez-vous essayé de profilage de votre code? Cela vous donnera votre goulot d'étranglement et une idée claire d'où l'amélioration. Je ne serais pas surpris si c'est votre réseau est le premier problème. Aussi jeter un oeil à commons.apache.org/sandbox/csv en lieu et place de la construction de l'analyseur de vous-même.
Je suis de profilage, et je suis conscient que la grande partie du temps est causée par une connexion réseau. Je veux améliorer l'analyse tout d'abord parce qu'avec le réseau, j'ai besoin de changer l'architecture. (Mon estimation, qui est plus rapide que l'analyse peut améliorer le temps de chargement de 10 à 15%).
Juste des sons. Utilisez un csv analyseur ces sont optimisés déjà et vous êtes lié à courir dans l'évasion et de l'i18n questions en bas de la route qui vous ne voulez pas à s'inquiéter. Bonne chance.
Semble que la méthode actuelle est assez rapide il faut 2 secondes pour analyser un fichier donc au total avec tous les fichiers d'analyse prend moins de 1% ;/
Voir aussi stackoverflow.com/questions/3908012/parsing-csv-in-java
Aucune idée si c'est applicable pour votre domaine, mais je considère la création de scripts shell de base de traitement (par exemple, replaceAll dans votre code). SED / AWK sont en fait conçues pour ce genre de choses, ne pensez pas que vous pouvez obtenir beaucoup plus vite que ça. JVM serait alors "seulement" besoin d'analyser les pré-traitées les données. Mais encore une fois, cela peut ne pas être applicable.

InformationsquelleAutor Lukasz Madon | 2011-07-28

18

Apache Commons CSV

Avez-vous vu Apache Commons CSV?

Mise En Garde Sur L'Utilisation De split

Garder à l'esprit est que split ne renvoie une vue des données, ce qui signifie que l'original line objet n'est pas admissible pour la collecte des ordures alors qu'il y a une référence à l'un quelconque de ses points de vue. Peut-être faire une défensive copie de l'aide? (Java rapport de bug)

Il n'est pas aussi fiable dans le groupement échappé CSV colonnes contenant des virgules
- +1 pour le bug et je vais essayer de apache.
InformationsquelleAutor Jeff Foster
13

opencsv

Prendre un coup d'oeil à opencsv.

Ce blog, opencsv est facile CSV analyseur, a exemple d'utilisation.
- Voir les commentaires sur le similaire frère réponse.
InformationsquelleAutor flash
5

Outre les suggestions ci-dessus, je pense que vous pouvez essayer d'améliorer votre code à l'aide de certains de filetage et de la concurrence.

Qui suit est une brève analyse et proposition de solution
1. Du code, il me semble que vous êtes la lecture des données sur le réseau (plus éventuellement apache-common-httpclient lib).
2. Vous devez vous assurer que le goulot d'étranglement que vous dites n'est pas dans le transfert de données sur le réseau.
3. Une façon de voir est juste vider les données dans un fichier (sans analyse) et de voir combien faut-il. Cela vous donnera une idée de combien de temps est effectivement passé dans l'analyse (par rapport à l'observation courante).
4. Maintenant avoir un regard sur la façon dont java.util.simultanées package est utilisé. Le lien que vous pouvez utiliser sont (Un,Deux)
5. Ce que vous ca n'est que les tâches que vous faites dans la boucle for peut être exécuté dans un thread.
6. En utilisant le pool de threads et de la concurrence va grandement améliorer vos performances.
Si la solution implique un effort, mais à la fin ce sera sûrement vous aider.
- si le goulot d'étranglement est le transfert sur le réseau, vous devriez envisager de spécifier l'en-tête gzip
InformationsquelleAutor Santosh
5

Le problème de votre code, c'est que c'est à l'aide de replaceAll et split, qui sont très coûteux en fonctionnement. Vous devriez certainement envisager d'utiliser un fichier csv analyseur/lecteur qui permettrait de faire un passage de l'analyse.

Il y a une référence sur github

https://github.com/uniVocity/csv-parsers-comparison

qui, malheureusement, est couru sous java 6. Le nombre sont légèrement différents sous java 7 et 8. Je vais essayer d'obtenir plus de détails de données pour différentes taille de fichier, mais c'est un travail en cours

voir https://github.com/arnaudroger/csv-parsers-comparison

InformationsquelleAutor user3996996
2

opencsv

Vous devriez jeter un oeil à OpenCSV. Je m'attends à ce qu'ils ont de l'optimisation des performances.
- Nous avons une très mauvaise expérience avec opencsv. nous l'avons trouvé à la fois lent et buggé. fini par perdre une demi-journée, et de le remplacer en tout.
- ok... vous pouvez ajouter plus de détails pour faire de cette information pertinente. Quels problèmes avez-vous? Quelle version utilisez-vous? Qui d'autres cadre avez-vous choisi? Je me demandais simplement parce que je l'ai vu dans plus d'un projet où il a fait un bon travail.
- Le principal problème était qu'elle était de retour le mauvais nombre de champs (c'est à dire j'ai eu un 2 champ string[] sur un 10 les champs de la ligne) pour certaines lignes. Je n'ai jamais pu comprendre pourquoi c'est arrivé, mais je devine qu'il se rapporte en quelque sorte à la mauvaise utf-8 l'analyse. Je l'ai remplacé par ma propre lecture ligne par ligne, de la Chaîne.diviser chaque ligne (je me rends compte il y a des considérations relatives à la mémoire ici), qui a terminé la course à pied entre 15% à 30% plus rapide. J'ai été en utilisant opencs v2.3 (java)
InformationsquelleAutor Kai
1

Un peu de retard ici, il y a maintenant quelques projets de benchmarking pour CSV analyseurs. Votre choix dépendra de l'utilisation exacte des cas (c'est à dire les données brutes vs la liaison de données, etc).
- SimpleFlatMapper
- univocité
- sesseltjonna-csv (disclaimer: j'ai écrit cet analyseur)
InformationsquelleAutor ThomasRS

Pour la vitesse que vous ne souhaitez pas utiliser replaceAll, et vous ne voulez pas utiliser les regex soit. Ce que vous avez toujours envie de faire dans les cas critiques comme ça, c'est de faire une machine d'état, caractère par caractère de l'analyseur. Je l'ai fait avoir roulé le tout dans une Itératif de la fonction. Il prend également dans le flux et l'analyse sans l'enregistrer ou de la mise en cache il. Donc, si vous pouvez abandonner au début qui va probablement aller très bien. Il devrait également être assez court et bien codé assez évident de savoir comment il fonctionne.

public static Iterable<String[]> parseCSV(final InputStream stream) throws IOException {
return new Iterable<String[]>() {
@Override
public Iterator<String[]> iterator() {
return new Iterator<String[]>() {
static final int UNCALCULATED = 0;
static final int READY = 1;
static final int FINISHED = 2;
int state = UNCALCULATED;
ArrayList<String> value_list = new ArrayList<>();
StringBuilder sb = new StringBuilder();
String[] return_value;
public void end() {
end_part();
return_value = new String[value_list.size()];
value_list.toArray(return_value);
value_list.clear();
}
public void end_part() {
value_list.add(sb.toString());
sb.setLength(0);
}
public void append(int ch) {
sb.append((char) ch);
}
public void calculate() throws IOException {
boolean inquote = false;
while (true) {
int ch = stream.read();
switch (ch) {
default: //regular character.
append(ch);
break;
case -1: //read has reached the end.
if ((sb.length() == 0) && (value_list.isEmpty())) {
state = FINISHED;
} else {
end();
state = READY;
}
return;
case '\r':
case '\n': //end of line.
if (inquote) {
append(ch);
} else {
end();
state = READY;
return;
}
break;
case ',': //comma
if (inquote) {
append(ch);
} else {
end_part();
break;
}
break;
case '"': //quote.
inquote = !inquote;
break;
}
}
}
@Override
public boolean hasNext() {
if (state == UNCALCULATED) {
try {
calculate();
} catch (IOException ex) {
}
}
return state == READY;
}
@Override
public String[] next() {
if (state == UNCALCULATED) {
try {
calculate();
} catch (IOException ex) {
}
}
state = UNCALCULATED;
return return_value;
}
};
}
};
}

En général les processus de cette très utiles comme:

for (String[] csv : parseCSV(stream)) {
//<deal with parsed csv data>
}

La beauté de l'API, il vaut la peine de l'apparentent à la recherche de la fonction.

InformationsquelleAutor Tatarize

Apache Commons CSV ➙ de 12 secondes pour les millions de lignes de

Est-il une bibliothèque existante qui pourrait m'aider à accélérer les choses?

Oui, le Apache Commons CSV projet fonctionne très bien dans mon expérience.

Voici un exemple d'application qui utilise Apache Commons CSV bibliothèque pour lire et écrire des lignes de 24 colonnes: Un entier numéro séquentiel, un Instantané, et le reste sont aléatoires UUID objets.

Pour 10 000 lignes, l'écriture et à la lecture de chacun prendre environ une demi-seconde. La lecture comprend la reconstitution de la Integer, Instant, et UUID objets.

Mon exemple de code vous permet d'activer ou de désactiver la reconstitution d'objets. J'ai couru à la fois avec un million de lignes. Cela crée un fichier de 850 mo. Je suis à l'aide de Java 12 sur un MacBook Pro (Retina, 15 pouces, Fin 2013), 2,3 GHz Intel Core i7, 16 GO 1600 MHz DDR3, Apple SSD.

Pour un million de lignes, dix secondes pour lire plus de deux secondes pour l'analyse:

Écrit: PT25.994816S
Lecture seulement: PT10.353912S
Lecture & analyse: PT12.219364S

Code Source est une seule .java fichier. A une méthode d'écriture, et un read méthode. Les deux méthodes appelées à partir d'un main méthode.

J'ai ouvert un BufferedReader en appelant Fichiers.newBufferedReader.

package work.basil.example;
import org.apache.commons.csv.CSVFormat;
import org.apache.commons.csv.CSVParser;
import org.apache.commons.csv.CSVPrinter;
import org.apache.commons.csv.CSVRecord;
import java.io.*;
import java.nio.charset.StandardCharsets;
import java.nio.file.Files;
import java.nio.file.Path;
import java.nio.file.Paths;
import java.time.Duration;
import java.time.Instant;
import java.util.UUID;
public class CsvReadingWritingDemo
{
public static void main ( String[] args )
{
CsvReadingWritingDemo app = new CsvReadingWritingDemo();
app.write();
app.read();
}
private void write ()
{
Instant start = Instant.now();
int limit = 1_000_000; //10_000  100_000  1_000_000
Path path = Paths.get( "/Users/basilbourque/IdeaProjects/Demo/csv.txt" );
try (
Writer writer = Files.newBufferedWriter( path, StandardCharsets.UTF_8 );
CSVPrinter printer = new CSVPrinter( writer , CSVFormat.RFC4180 );
)
{
printer.printRecord( "id" , "instant" , "uuid_01" , "uuid_02" , "uuid_03" , "uuid_04" , "uuid_05" , "uuid_06" , "uuid_07" , "uuid_08" , "uuid_09" , "uuid_10" , "uuid_11" , "uuid_12" , "uuid_13" , "uuid_14" , "uuid_15" , "uuid_16" , "uuid_17" , "uuid_18" , "uuid_19" , "uuid_20" , "uuid_21" , "uuid_22" );
for ( int i = 1 ; i <= limit ; i++ )
{
printer.printRecord( i , Instant.now() , UUID.randomUUID() , UUID.randomUUID() , UUID.randomUUID() , UUID.randomUUID() , UUID.randomUUID() , UUID.randomUUID() , UUID.randomUUID() , UUID.randomUUID() , UUID.randomUUID() , UUID.randomUUID() , UUID.randomUUID() , UUID.randomUUID() , UUID.randomUUID() , UUID.randomUUID() , UUID.randomUUID() , UUID.randomUUID() , UUID.randomUUID() , UUID.randomUUID() , UUID.randomUUID() , UUID.randomUUID() , UUID.randomUUID() , UUID.randomUUID() );
}
} catch ( IOException ex )
{
ex.printStackTrace();
}
Instant stop = Instant.now();
Duration d = Duration.between( start , stop );
System.out.println( "Wrote CSV for limit: " + limit );
System.out.println( "Elapsed: " + d );
}
private void read ()
{
Instant start = Instant.now();
int count = 0;
Path path = Paths.get( "/Users/basilbourque/IdeaProjects/Demo/csv.txt" );
try (
Reader reader = Files.newBufferedReader( path , StandardCharsets.UTF_8) ;
)
{
CSVFormat format = CSVFormat.RFC4180.withFirstRecordAsHeader();
CSVParser parser = CSVParser.parse( reader , format );
for ( CSVRecord csvRecord : parser )
{
if ( true ) //Toggle parsing of the string data into objects. Turn off (`false`) to see strictly the time taken by Apache Commons CSV to read & parse the lines. Turn on (`true`) to get a feel for real-world load.
{
Integer id = Integer.valueOf( csvRecord.get( 0 ) ); //Annoying zero-based index counting.
Instant instant = Instant.parse( csvRecord.get( 1 ) );
for ( int i = 3 - 1 ; i <= 22 - 1 ; i++ ) //Subtract one for annoying zero-based index counting.
{
UUID uuid = UUID.fromString( csvRecord.get( i ) );
}
}
count++;
if ( count % 1_000 == 0 )  //Every so often, report progress.
{
//System.out.println( "# " + count );
}
}
} catch ( IOException e )
{
e.printStackTrace();
}
Instant stop = Instant.now();
Duration d = Duration.between( start , stop );
System.out.println( "Read CSV for count: " + count );
System.out.println( "Elapsed: " + d );
}
}

InformationsquelleAutor Basil Bourque

Vous devez vous connecter pour publier un commentaire.

Apache Commons CSV

Mise En Garde Sur L'Utilisation De split

opencsv

opencsv

Apache Commons CSV ➙ de 12 secondes pour les millions de lignes de

Mise En Garde Sur L'Utilisation De `split`