Comment combiner deux lignes et calculer la différence de temps entre deux valeurs d'horodatage dans MySQL?

J'ai une situation qui, je suis sûr que c'est assez commun et il est vraiment à me tracasser que je ne peux pas comprendre comment le faire ou quoi chercher pour trouver un exemple pertinent/solution. Je suis relativement nouveau à MySQL (qui ont été à l'aide de MYSQL et PostgreSQL) et chaque approche, je pense, bloqué par certaines caractéristiques défaut dans MySQL.

J'ai une "du journal" le tableau qui énumère simplement beaucoup de différents événements avec leur date et heure (stockés en tant que type datetime). Il y a beaucoup de données et les colonnes du tableau ne sont pas pertinentes à ce problème, donc disons que nous avons un simple tableau comme ceci:

CREATE TABLE log (  
  id INT NOT NULL AUTO_INCREMENT,  
  name VARCHAR(16),  
  ts DATETIME NOT NULL,  
  eventtype VARCHAR(25),  
  PRIMARY KEY  (id)  
)

Disons que certaines lignes ont un eventtype = "start" et d'autres ont un eventtype = 'stop'. Ce que je veux faire, c'est en quelque sorte à chaque couple "startrow" à chaque "stoprow" et de trouver la différence de temps entre les deux (et puis additionner les durées pour chaque nom, mais ce n'est pas où se trouve le problème). Chaque "démarrer" de l'événement doit correspondre un "stop" de l'événement se produisant à un moment plus tard, alors que le "début" de l'événement, mais à cause de problèmes/bugs/s'est écrasé avec le collecteur de données, il est possible que certains sont manquants. Dans ce cas, je voudrais d'ignorer l'événement sans un "partenaire". Cela signifie que les données:

foo, 2010-06-10 19:45, start  
foo, 2010-06-10 19:47, start  
foo, 2010-06-10 20:13, stop

..Je voudrais juste ignorer le 19:45 de début de l'événement et de ne pas simplement obtenir deux lignes de résultats à la fois à l'aide de l'20:13 arrêt événement comme le temps à l'arrêt.

J'ai essayé de joindre la table avec elle-même de différentes manières, mais la clé de problèmes pour moi semble être de trouver un moyen d'identifier correctement le correspondant "stop" événement "start" de l'événement pour le "nom". Le problème est exactement le même que vous auriez si vous aviez de la table avec les employés d'estampage et de travail et je voulais savoir combien ils étaient réellement au travail. Je suis sûre qu'il doit être bien connue des solutions, mais je n'arrive pas à les trouver...

source d'informationauteur Nadar

mysql sql

Je crois que ça pourrait être un moyen plus simple pour atteindre votre objectif:

SELECT
    start_log.name,
    MAX(start_log.ts) AS start_time,
    end_log.ts AS end_time,
    TIMEDIFF(MAX(start_log.ts), end_log.ts)
FROM
    log AS start_log
INNER JOIN
    log AS end_log ON (
            start_log.name = end_log.name
        AND
            end_log.ts > start_log.ts)
WHERE start_log.eventtype = 'start'
AND end_log.eventtype = 'stop'
GROUP BY start_log.name

Il doit courir beaucoup plus vite, car elle élimine une sous-requête.

Si vous n'avez pas l'esprit de la création d'une table temporaire*, alors je pense que la suite devrait bien fonctionner. Je l'ai testé avec de 120 000 dossiers, et l'ensemble du processus se termine en moins de 6 secondes. Avec de 1 048 576 dossiers terminé en un peu moins de 66 secondes - et c'est sur un vieux Pentium III avec 128 mo de RAM:

*En MySQL 5.0 (et peut-être d'autres versions) la table temporaire ne peut pas être un vrai MySQL table temporaire, comme vous ne peut pas se référer à une table TEMPORAIRE plus d'une fois dans la même requête. Voir ici:

http://dev.mysql.com/doc/refman/5.0/en/temporary-table-problems.html

Au lieu de cela, il suffit de déposer/créer un tableau normal, comme suit:

DROP TABLE IF EXISTS `tmp_log`;
CREATE TABLE `tmp_log` (
    `id` INT NOT NULL,
    `row` INT NOT NULL,
    `name` VARCHAR(16),
    `ts` DATETIME NOT NULL,
    `eventtype` VARCHAR(25),
    INDEX `row` (`row` ASC),
    INDEX `eventtype` (`eventtype` ASC)
);

Cette table est utilisée pour stocker un classement et liste numérotée des lignes de la requête de sélection suivante:

INSERT INTO `tmp_log` (
    `id`,
    `row`,
    `name`,
    `ts`,
    `eventtype`
)
SELECT
    `id`,
    @row:=@row+1,
    `name`,
    `ts`,
    `eventtype`
FROM log,
(SELECT @row:=0) row_count
ORDER BY `name`, `id`;

Ci-dessus requête SELECT trie les lignes par le nom et l'id (vous pouvez utiliser le timestamp au lieu de l'id, si tant est que le début des événements apparaissent avant l'arrêt des événements). Chaque ligne est numérotée. En faisant cela, les paires d'événements sont toujours à côté de l'autre, et le numéro de ligne du début de l'événement est toujours un de moins que la ligne id de l'événement d'arrêt.

Maintenant, sélectionnez les paires correspondantes de la liste:

SELECT
    start_log.row AS start_row,
    stop_log.row AS stop_row,
    start_log.name AS name,
    start_log.eventtype AS start_event,
    start_log.ts AS start_time,
    stop_log.eventtype AS stop_event,
    stop_log.ts AS end_time,
    TIMEDIFF(stop_log.ts, start_log.ts) AS duration
FROM
    tmp_log AS start_log
INNER JOIN tmp_log AS stop_log
    ON start_log.row+1 = stop_log.row
    AND start_log.name = stop_log.name
    AND start_log.eventtype = 'start'
    AND stop_log.eventtype = 'stop'
ORDER BY start_log.id;

Une fois que vous avez terminé, il est probablement une bonne idée de supprimer la table temporaire:

DROP TABLE IF EXISTS `tmp_log`;row

Mise à JOUR

Vous pouvez essayer de l'idée suivante, ce qui élimine le temp des tables et des jointures complètement en utilisant des variables pour stocker des valeurs de la rangée précédente. Il trie les lignes par le nom puis le temps de timbre, qui regroupe toutes les valeurs avec le même nom, et met chaque groupe dans l'ordre du temps. Je pense que cela devrait s'assurer que tous les correspondants start/stop événements sont à côté les uns des autres.

SELECT id, name, start, stop, TIMEDIFF(stop, start) AS duration FROM (
    SELECT
        id, ts, eventtype,
        (@name <> name) AS new_name,
        @start AS start,
        @start := IF(eventtype = 'start', ts, NULL) AS prev_start,
        @stop  := IF(eventtype = 'stop',  ts, NULL) AS stop,
        @name  := name AS name
    FROM table1 ORDER BY name, ts
) AS tmp, (SELECT @start:=NULL, @stop:=NULL, @name:=NULL) AS vars
WHERE new_name = 0 AND start IS NOT NULL AND stop IS NOT NULL;

Je ne sais pas comment il va comparer à Ivar Bonsaksen de la méthode, mais il fonctionne assez rapide sur ma boîte.

Voici comment j'ai créé les données de test:

CREATE TABLE  `table1` (
    `id` INT UNSIGNED NOT NULL AUTO_INCREMENT,
    `name` VARCHAR(5),
    `ts` DATETIME,
    `eventtype` VARCHAR(5),
    PRIMARY KEY (`id`),
    INDEX `name` (`name`),
    INDEX `ts` (`ts`)
) ENGINE=MyISAM;

DELIMITER //
DROP PROCEDURE IF EXISTS autofill//
CREATE PROCEDURE autofill()
BEGIN
    DECLARE i INT DEFAULT 0;
    WHILE i < 1000000 DO
        INSERT INTO table1 (name, ts, eventtype) VALUES (
            CHAR(FLOOR(65 + RAND() * 26)),
            DATE_ADD(NOW(),
            INTERVAL FLOOR(RAND() * 365) DAY),
            IF(RAND() >= 0.5, 'start', 'stop')
        );
        SET i = i + 1;
    END WHILE;
END;
//
DELIMITER ;

CALL autofill();

1

Pouvez-vous changer le collecteur de données? Si oui, ajouter un group_id champ (avec un index) dans la table du journal et écrire l'id de l'événement (le même id de début et de fin dans le group_id).
Ensuite, vous pouvez faire
```
SELECT S.id, S.name, TIMEDIFF(E.ts, S.ts) `diff`
FROM `log` S
    JOIN `log` E ON S.id = E.group_id AND E.eventtype = 'end'
WHERE S.eventtype = 'start'
```

De l'essayer.

select start.name, start.ts start, end.ts end, timediff(end.ts, start.ts) duration from (
    select *, (
        select id from log L2 where L2.ts>L1.ts and L2.name=L1.name order by ts limit 1
    ) stop_id from log L1
) start join log end on end.id=start.stop_id
where start.eventtype='start' and end.eventtype='stop';

Comment à ce sujet:

SELECT start_log.ts AS start_time, end_log.ts AS end_time
FROM log AS start_log
INNER JOIN log AS end_log ON (start_log.name = end_log.name AND end_log.ts > start_log.ts)
WHERE NOT EXISTS (SELECT 1 FROM log WHERE log.ts > start_log.ts AND log.ts < end_log.ts)
 AND start_log.eventtype = 'start'
 AND end_log.eventtype = 'stop'

Cela permettra de trouver chaque paire de lignes (alias start_log et end_log) avec aucun des événements entre les deux, où le premier est toujours un début et le dernier est toujours un arrêt. Puisque nous interdire l'intermédiaire d'événements, un début qui n'est pas immédiatement suivi d'un arrêt sera naturellement exclus.

J'ai eu de travail en combinant vos deux solutions, mais la requête n'est pas très efficace, et je n'aurais pensé qu'il y aurait une façon plus intelligente d'omettre ces indésirables lignes.

Ce que j'ai maintenant est:

SELECT y.name, 
       y.start, 
       y.stop, 
       TIMEDIFF(y.stop, y.start) 
  FROM (SELECT l.name, 
               MAX(x.ts) AS start, 
               l.ts AS stop 
          FROM log l 
          JOIN (SELECT t.name, 
                       t.ts 
                  FROM log t 
                 WHERE t.eventtype = 'start') x ON x.name = l.name 
                       AND x.ts < l.ts 
         WHERE l.eventtype = 'stop' 
      GROUP BY l.name, l.ts) y 
WHERE NOT EXISTS (SELECT 1 
                    FROM log AS d 
                   WHERE d.ts > y.start AND d.ts < y.stop AND d.name = y.name 
                         AND d.eventtype = 'stop')

Limitée à un "nom", la requête va d'environ 0,5 secondes environ 14 secondes quand j'inclus le WHERE NOT EXISTS clause... La table va devenir très grand et je suis inquiet au sujet de combien d'heures cela va prendre pour tous les noms à la fin. Je suis actuellement seulement avoir des données pour le mois de juin 2010 dans le tableau (10 jours) et c'est maintenant à 109888 lignes.

Vous devez vous connecter pour publier un commentaire.