Comment lire toutes les lignes de table immense?

J'ai un problème avec le traitement de toutes les lignes à partir de la base de données (PostgreSQL). J'obtiens une erreur: org.postgresql.util.PSQLException: Ran out of memory retrieving query results. je pense que j'ai besoin de lire toutes les lignes en petits morceaux, mais elle ne fonctionne pas - il ne lit qu'100 lignes (code ci-dessous). Comment faire?

    int i = 0;      
    Statement s = connection.createStatement();
    s.setMaxRows(100); //bacause of: org.postgresql.util.PSQLException: Ran out of memory retrieving query results.
    ResultSet rs = s.executeQuery("select * from " + tabName);      
    for (;;) {
        while (rs.next()) {
            i++;
            //do something...
        }
        if ((s.getMoreResults() == false) && (s.getUpdateCount() == -1)) {
            break;
        }           
    }

InformationsquelleAutor marioosh | 2010-09-10

38

Utilisation un CURSEUR dans PostgreSQL ou laissez JDBC pilote de gérer cela pour vous.

LIMIT et OFFSET obtiendra lente lors de la manipulation de jeux de données volumineux.
- Le deuxième lien ne fonctionne pas...
- Essayez celui-ci: jdbc.postgresql.org//documentation/head/...
InformationsquelleAutor Frank Heikens
64

La version courte est, appel stmt.setFetchSize(50); et conn.setAutoCommit(false); pour éviter de lire l'intégralité de l' ResultSet en mémoire.

Voici ce que le docs dire:
Obtenir des résultats basés sur un curseur

Par défaut, le pilote de collecte tous les résultats de la requête à la fois.
Cela peut être gênant pour les grands ensembles de données de sorte que le pilote JDBC
fournit un moyen de fonder un jeu de résultats sur une base de données de curseur et seulement
l'extraction d'un petit nombre de lignes.

Un petit nombre de lignes sont mises en cache sur le côté client de la connexion
et quand épuisé le prochain bloc de lignes extraites par
le repositionnement du curseur.

Remarque:
- Curseur en fonction des jeux de résultats ne peut pas être utilisé dans toutes les situations. Il y a un certain nombre de restrictions qui fera que le pilote en silence
  revenir à l'extraction de l'ensemble du jeu de résultats à la fois.
- La connexion au serveur doit être à l'aide de la V3 protocole. C'est la valeur par défaut (et n'est pris en charge par le serveur de versions
  7.4 et plus tard.-
- La Connexion ne doit pas être en mode autocommit. Le backend ferme les curseurs à la fin de la transaction, de sorte que dans le mode de validation automatique
  le backend sera fermé le curseur avant que quelque chose peut être
  récupérée de lui.-
- La Déclaration doit être créé avec un ResultSet type de jeu de résultats.TYPE_FORWARD_ONLY. C'est la valeur par défaut, donc pas de code
  besoin d'être réécrit pour tirer parti de cette situation, mais il a également
  signifie que vous ne pouvez pas faire défiler vers l'arrière ou autrement sauter partout
  dans le jeu de résultats.-
- La requête doit être une seule déclaration, pas de multiples déclarations reliées ensemble par des points-virgules.
Exemple 5.2. Réglage de la taille de l'extraction de tourner les curseurs sur et en dehors.

Changeant le code de mode curseur est aussi simple que le réglage de la taille de l'extraction de la Déclaration à la taille appropriée. Réglage de la taille de l'extraction à 0, toutes les lignes de la mise en cache (le comportement par défaut).
```
//make sure autocommit is off
conn.setAutoCommit(false);
Statement st = conn.createStatement();

//Turn use of the cursor on.
st.setFetchSize(50);
ResultSet rs = st.executeQuery("SELECT * FROM mytable");
while (rs.next()) {
   System.out.print("a row was returned.");
}
rs.close();

//Turn the cursor off.
st.setFetchSize(0);
rs = st.executeQuery("SELECT * FROM mytable");
while (rs.next()) {
   System.out.print("many rows were returned.");
}
rs.close();

//Close the statement.
st.close();
```
- Est-il un inconvénient à cela? Dois-je l'activer pour toutes les requêtes (à partir de la formulation dans la doc il semble supérieure dans tous les cas; si vous êtes à la lecture des tables de grande taille c'est mieux et si vous êtes à la lecture des petits tableaux, il n'a pas d'importance)
InformationsquelleAutor nos
6

Il s'avère donc que le noeud du problème est que par défaut, Postgres commence dans "autoCommit" de mode, et aussi il a besoin de/utilise les curseurs pour être en mesure de "page" par le biais de données (ex: lire le premier 10K résultats, puis la suivante, puis la suivante), cependant les curseurs ne peut exister qu'au sein d'une transaction. Donc la valeur par défaut est de lire toutes les lignes, toujours, dans la RAM, et puis laissez votre programme pour lancer le traitement "la première ligne, puis la deuxième" après qu'il ait tous arrivé, pour deux raisons, il n'est pas dans une transaction (afin de curseurs ne fonctionnent pas), et aussi une taille d'extraction n'a pas été définie.

Alors, comment les psql outil de ligne de commande atteint par lot réponse (son FETCH_COUNT réglage) pour les requêtes, est de "wrap" de ses requêtes de sélection au sein d'opérations à court terme (si une transaction n'est pas encore ouverte), de sorte que les curseurs peuvent travailler. Vous pouvez faire quelque chose comme ça aussi avec JDBC:
```
  static void readLargeQueryInChunksJdbcWay(Connection conn, String originalQuery, int fetchCount, ConsumerWithException<ResultSet, SQLException> consumer) throws SQLException {
    boolean originalAutoCommit = conn.getAutoCommit();
    if (originalAutoCommit) {
      conn.setAutoCommit(false); //start temp transaction
    }
    try (Statement statement = conn.createStatement()) {
      statement.setFetchSize(fetchCount);
      ResultSet rs = statement.executeQuery(originalQuery);
      while (rs.next()) {
        consumer.accept(rs); //or just do you work here
      }
    } finally {
      if (originalAutoCommit) {
        conn.setAutoCommit(true); //reset it, also ends (commits) temp transaction
      }
    }
  }
  @FunctionalInterface
  public interface ConsumerWithException<T, E extends Exception> {
    void accept(T t) throws E;
  }
```
Cela donne l'avantage de nécessiter moins de RAM, et, dans mes résultats, semblait courir ensemble plus rapidement, même si vous n'avez pas besoin pour économiser de la RAM. Bizarre. Il donne également l'avantage que votre traitement de première ligne "démarre plus vite" (puisque le processus d'une page à la fois).

Et voici comment le faire de la "raw postgres curseur" ainsi, le long avec plein de démonstration code, bien que dans mes expériences, il semblait JDBC façon, ci-dessus, a été légèrement plus rapide pour quelque raison que ce soit.

Une autre option serait d'avoir autoCommit mode off, partout, si vous avez encore de toujours spécifier manuellement un fetchSize pour chaque nouvelle Déclaration (ou vous pouvez définir une valeur par défaut taille de l'extraction dans la chaîne d'URL).

InformationsquelleAutor rogerdpack
2

Je pense que votre question est similaire à ce fil: JDBC de la Pagination qui contient des solutions adaptées à votre besoin.

En particulier, pour PostgreSQL, vous pouvez utiliser le LIMITER et COMPENSER les mots clés de votre demande: http://www.petefreitag.com/item/451.cfm

PS: Dans du code Java, je vous suggère d'utiliser PreparedStatement au lieu de simples Déclarations: http://download.oracle.com/javase/tutorial/jdbc/basics/prepared.html
- Utilisez simplement le Printemps, pratiquement pas besoin de toujours code contre les classes du JDK - static.springsource.org/spring/docs/3.0.x/...
- LIMIT et OFFSET n'est pas à l'échelle pour de très grands jeux de résultats :\
InformationsquelleAutor Benoit Courtine

Je l'ai fait comme ci-dessous. Pas le meilleur moyen je pense, mais ça fonctionne 🙂

    Connection c = DriverManager.getConnection("jdbc:postgresql://....");
    PreparedStatement s = c.prepareStatement("select * from " + tabName + " where id > ? order by id");
    s.setMaxRows(100);
    int lastId = 0;
    for (;;) {
        s.setInt(1, lastId);
        ResultSet rs = s.executeQuery();

        int lastIdBefore = lastId;
        while (rs.next()) {
            lastId = Integer.parseInt(rs.getObject(1).toString());
            //...
        }

        if (lastIdBefore == lastId) {
            break;
        }
    }

InformationsquelleAutor marioosh

0

Au moins dans mon cas, le problème était sur le client qui tente d'extraire les résultats.

Voulait obtenir .csv avec TOUS les résultats.

J'ai trouvé la solution en utilisant
```
psql -U postgres -d dbname  -c "COPY (SELECT * FROM T) TO STDOUT WITH DELIMITER ','"
```
(où dbname le nom de la db...) et de la rediriger vers un fichier.

InformationsquelleAutor ntg

Vous devez vous connecter pour publier un commentaire.