L'estimation petit temps de décalage entre les deux séries

J'ai deux fois de la série, et je soupçonne qu'il y a un décalage entre eux, et je veux l'estimation de ce temps de décalage.

Cette question a été posée dans:
Trouver la différence de phase entre les deux (inharmoniques) des ondes et trouver le temps de décalage entre les deux formes d'onde mais dans mon cas, le décalage est plus petite que la résolution des données. par exemple, les données sont disponibles à l'heure de la résolution, et le décalage temporel est à seulement quelques minutes(voir l'image).

La cause de cela est que l'enregistreur de données utilisées pour mesurer les valeurs de la série a quelques minutes de décalage en son temps.

Des algorithmes qui peuvent estimer cette maj, de préférence sans l'aide de l'interpolation?

(+1) Belle question. D'intérêt, pourquoi êtes-vous l'interdiction de l'utilisation de l'interpolation?
j'ai juste pensé que si vous voulez estimer le passage à la haute précision alors vous avez besoin pour interpoler à une très haute résolution. et depuis j'ai beaucoup de données, je voulais éviter cela.
Il me semble que les séries de fourier peut être utile si vos données sont à peu près périodiques...
Avez-vous une sorte de synchronisation des événements qui se produisent dans les deux temps de la série?
Si les données ressemble à rien dans le graphique, il est très périodique et une FFT pourrais vous montrer le changement. Bien que la FFT est elle-même une interpolation...avez-vous un exemple de données pour nous de test, ce qui est intéressant.7
Que les données n'est en fait pas très périodique. C'est la mi-périodique (périodicité implique que la dérivée de l'une des extrémités du domaine est le même que bien), mais il pourrait travailler sur OK.
J'ai vu FFT donner des résultats raisonnables pour beaucoup plus laid de données.
Sûr qu'il peut. Il n'y a aucune raison de croire qu'il devrait a priori (pour autant que je suis au courant). De toute façon, n'hésitez pas à jeter un coup d'oeil à la FFT la solution que j'ai posté ci-dessous (vous peut-être plus familier avec ce genre de choses que je suis). Je serais heureux de le convertir à une communauté wiki si d'autres voulaient contribuer et de faire mieux.
Vous pouvez la croix-corréler les deux séries de données à l'aide de changements près de la suspicion de décalage de la valeur; la maximisation de la corrélation croisée va vous donner le temps de décalage. Depuis que vous êtes à la recherche d'un changement de fois plus petite que la résolution de votre écran, une accélération continue (sous-échantillonnage) méthode de corrélation est nécessaire.
non, les données de rayonnement solaire et de la prévision du rayonnement solaire, donc il n'y a pas d'événements que simultanément l'effet bothseries(si j'ai bien compris votre question).
si vous me donnez votre adresse e-mail malade vous envoyer les données
La figure ci-contre est une journée claire et la série a l'air très corrélés et lisse, mais pour la plupart des jours de l'année, les données sont des choses très différentes, les prévisions sont bien pire, et la série est moins lisse.

InformationsquelleAutor omar | 2012-12-11

4

C'est un problème intéressant. Voici une tentative de solution partielle à l'aide de transformées de fourier. Elle s'appuie sur les données modérément périodique. Je ne suis pas sûr si elle va travailler avec vos données (où les produits dérivés dans les points de terminaison ne semblent pas correspondre).
```
import numpy as np

X = np.linspace(0,2*np.pi,30)  #some X values

def yvals(x):
    return np.sin(x)+np.sin(2*x)+np.sin(3*x)

Y1 = yvals(X)
Y2 = yvals(X-0.1)  #shifted y values

#fourier transform both series
FT1 = np.fft.fft(Y1)
FT2 = np.fft.fft(Y2)

#You can show that analyically, a phase shift in the coefficients leads to a 
#multiplicative factor of `exp(-1.j * N * T_d)`

#can't take the 0'th element because that's a division by 0.  Analytically, 
#the division by 0 is OK by L'hopital's<sp?> rule, but computers don't know calculus :)
print np.log(FT2[1:]/FT1[1:])/(-1.j*np.arange(1,len(X)))
```
Une rapide inspection de la sortie imprimée montre que les fréquences les plus
puissance (N=1,N=2) donner des estimations raisonnables, N=3 est OK aussi, si vous regardez la
valeur absolue (np.absolue), même si je suis à une perte d'expliquer pourquoi ce serait.

Peut-être quelqu'un de plus en plus familiers avec les mathématiques peuvent le prendre à partir de là pour donner une meilleure réponse...

InformationsquelleAutor mgilson
2

L'un des liens que vous avez fourni a la bonne idée (en fait, je suis en train de faire à peu près la même chose ici)
```
import numpy as np
import matplotlib.pyplot as plt
from scipy.signal import correlate

a,b, N = 0, 10, 1000        #Boundaries, datapoints
shift = -3                  #Shift, note 3/10 of L = b-a

x = np.linspace(a,b,N)
x1 = 1*x + shift
time = np.arange(1-N,N)     #Theoritical definition, time is centered at 0

y1 = sum([np.sin(2*np.pi*i*x/b) for i in range(1,5)])
y2 = sum([np.sin(2*np.pi*i*x1/b) for i in range(1,5)])

#Really only helps with large irregular data, try it
# y1 -= y1.mean()
# y2 -= y2.mean()
# y1 /= y1.std()
# y2 /= y2.std()

cross_correlation = correlate(y1,y2)
shift_calculated = time[cross_correlation.argmax()] *1.0* b/N
y3 = sum([np.sin(2*np.pi*i*(x1-shift_calculated)/b) for i in range(1,5)])
print "Preset shift: ", shift, "\nCalculated shift: ", shift_calculated



plt.plot(x,y1)
plt.plot(x,y2)
plt.plot(x,y3)
plt.legend(("Regular", "Shifted", "Recovered"))
plt.savefig("SO_timeshift.png")
plt.show()
```
Cela a le résultat suivant:
```
Preset shift:  -3
Calculated shift:  -2.99
```
Il pourrait être nécessaire de vérifier
1. Scipy Corrélation
2. Temps De Retard Analaysis
Noter que le argmax() de la corrélation indique la position de l'alignement, il doit être multipliée par la longueur de b-a = 10-0 = 10 et N pour obtenir la valeur réelle.

La vérification de la source de corréler Source il n'est pas évident que la fonction importée à partir d'sigtools se comporte. Pour les grands ensembles de données circulaire de corrélation (via les transformées de Fourier Rapides) est beaucoup plus rapide que la simple méthode. Je suppose que c'est ce qui est mis en œuvre dans sigtools mais je ne peux pas dire pour sûr. Recherchez le fichier dans mon python2.7 dossier retourné la compilation C pyd fichier.
- Avez-vous expérimenté ce que votre travail est vraiment petit? Par exemple, si shift = (x[1]-x[0])/4.0. C'est un test réaliste en comparaison avec l'OP de la demande ("le temps de déplacement est plus petite que la résolution des données")
- Il échoue lorsque le décalage est plus petite que la résolution des données, la résolution utilisée pour trouver le décalage est le même que les datas. N'est pas pris en compte. Je me demande ce que l'OPs de données ressemble quand il est sous-échantillonnée. Sinon, il doit être interpolées.
InformationsquelleAutor arynaq
2

C'est un très intéressant problème. A l'origine, j'allais suggérer une corrélation croisée basée sur une solution similaire à user948652 de l'. Cependant, à partir de la description du problème, il y a deux problèmes avec cette solution:
1. La résolution des données est plus grand que le temps de déplacement, et de
2. Sur quelques jours, les valeurs prédites et les valeurs mesurées ont une très faible corrélation les uns aux autres
Comme un résultat de ces deux questions, je pense que l'application directement de la corrélation croisée solution est susceptible d'augmenter votre temps de décalage, en particulier sur les jours où le prédites et les valeurs mesurées ont une très faible corrélation les uns aux autres.

Dans mon commentaire ci-dessus, j'ai demandé si vous aviez tous les événements qui se produisent dans les deux séries, et vous avez dit que vous n'avez pas. Toutefois, en fonction de votre domaine, je pense que vous avez effectivement deux:
1. Lever du soleil
2. Coucher de soleil
Même si le reste du signal est mal corrélée, le lever et le coucher du soleil doit être un peu corrélés, car ils vont augmenter de façon monotone à partir de /diminution de la nuit le temps de référence. Alors, voici une solution possible, sur la base de ces deux événements, qui devrait à la fois de minimiser l'interpolation nécessaire, et de ne pas être dépendant sur la corrélation croisée des mal-signaux corrélés.

1. Trouver approximative de Lever/Coucher du soleil

Cela devrait être assez facile, il suffit de prendre le premier et le dernier points de données qui sont plus élevés que la nuit, le plat de ligne, d'étiquette et de ceux de l'approximatif, le lever et le coucher du soleil. Puis, je me concentrerais sur les données, ainsi que les points immédiatement sur chaque côté, c'est à dire:
```
width=1
sunrise_index = get_sunrise()
sunset_index = get_sunset()

# set the data to zero, except for the sunrise/sunset events.
bitmap = zeros(data.shape)
bitmap[sunrise_index - width : sunrise_index + width] = 1
bitmap[sunset_index - width : sunset_index + width] = 1
sunrise_sunset = data * bitmap 
```
Il y a plusieurs façons de mettre en œuvre get_sunrise() et get_sunset() selon le degré de rigueur dont vous avez besoin dans votre analyse. Je voudrais utiliser numpy.diff, seuil à une valeur spécifique, et de prendre le premier et le dernier points au-dessus de cette valeur. Vous pouvez aussi lire la nuit des données à partir d'un grand nombre de fichiers, calculer la moyenne & l'écart type, et les premier et dernier points de données qui dépassent, disons, 0.5 * st_dev de la nuit des données en temps. Vous pouvez également faire une sorte de cluster à base de modèle d'appariement, en particulier si les différentes classes de la journée (c'est à dire, ensoleillé vs en partie nuageux vs très nuageux) ont fortement stéréotypée lever du soleil/coucher du soleil événements.

2. Rééchantillonnage Des Données

Je ne pense pas qu'il y est de toute façon de résoudre ce problème sans interpolation. Je voudrais utiliser le ré-échantillonner les données à un taux d'échantillonnage supérieur à la maj. Si le décalage est à l'échelle de minutes, puis suréchantillonner à 1 minute ou 30 secondes.
```
num_samples = new_sample_rate * sunrise_sunset.shape[0]
sunrise_sunset = scipy.signal.resample(sunrise_sunset, num_samples)
```
Alternativement, on peut utiliser une spline cubique pour interpoler les données (voir ici).

3. Gaussien De Convolution

Puisqu'il y a quelques interpolation, alors nous ne savons pas quelle est la réelle lever et coucher du soleil ont été prédites. Donc, nous pouvons convolution du signal avec une gaussienne, de représenter cette incertitude.
```
gaussian_window = scipy.signal.gaussian(M, std)
sunrise_sunset_g = scipy.signal.convolve(sunrise_sunset, gaussian_window)
```
4. Corrélation Croisée

L'utilisation de la corrélation croisée de la méthode dans user948652 la réponse à obtenir le time shift.

Il y a beaucoup de questions sans réponse dans cette méthode qui exigerait l'examen et l'expérimentation avec les données de manière plus spécifique à ongles vers le bas, comme quelle est la meilleure méthode pour identifier le lever du soleil/coucher du soleil, quelle est la largeur de la fenêtre gaussienne devrait être, etc. Mais c'est la façon dont je commence à attaquer le problème.
Bonne chance!

InformationsquelleAutor brentlance

En effet, le problème intéressant, mais pas encore de réponse satisfaisante. Essayons de changer cela...

Vous dites que vous préférez ne pas utiliser l'interpolation, mais, ce que je comprends de votre commentaire, ce que vous avez vraiment dire, c'est que vous voulez éviter de suréchantillonnage à une résolution plus élevée. Une solution de base permet l'utilisation d'une méthode des moindres carrés avec une interpolation linéaire de la fonction, mais sans suréchantillonnage à une résolution plus élevée:

import numpy as np
from scipy.interpolate import interp1d
from scipy.optimize import leastsq

def yvals(x):
    return np.sin(x)+np.sin(2*x)+np.sin(3*x)

dx = .1
X = np.arange(0,2*np.pi,dx)
Y = yvals(X)

unknown_shift = np.random.random() * dx
Y_shifted = yvals(X + unknown_shift)

def err_func(p):
    return interp1d(X,Y)(X[1:-1]+p[0]) - Y_shifted[1:-1]

p0 = [0,] # Inital guess of no shift
found_shift = leastsq(err_func,p0)[0][0]

print "Unknown shift: ", unknown_shift
print "Found   shift: ", found_shift

Un exemple d'exécution donne une assez précise de la solution:

Unknown shift:  0.0695701123582
Found   shift:  0.0696105501967

Si l'on inclut le bruit dans le décalée Y:

Y_shifted += .1*np.random.normal(size=X.shape)

On obtient quelque peu des résultats moins précis:

Unknown shift:  0.0695701123582
Found   shift:  0.0746643381744

L'exactitude en vertu de la présence de bruit améliore lorsque plus de données seront disponibles, par exemple avec:

X = np.arange(0,200*np.pi,dx)

Un résultat typique est:

Unknown shift:  0.0695701123582
Found   shift:  0.0698527939193

InformationsquelleAutor

0

J'ai utilisé avec succès (dans le canal awgn) appariés filtre approche, qui donne de l'énergie de pointe m[n] à l'indice n; puis le montage d'un 2ème degré polynôme f(n) pour m[n-1], m[n], m[n+1] et de trouver le minimum par définition de f'(n)==0.

La réponse n'est pas nécessairement absolument linéaire, surtout si l'autocorrélation du signal n'est pas s'évanouir à m[n-1], m[n+1].

InformationsquelleAutor Aki Suihkonen

Optimiser la meilleure solution

Pour les contraintes, à savoir que la solution est à phase décalée par une petite quantité de moins que la méthode d'échantillonnage, une simple descente du simplexe algorithme fonctionne bien. J'ai modifié l'exemple de problème de @mgilson pour montrer comment faire cela. Notez que cette solution est robuste, en ce qu'elle peut gérer le bruit.

De la fonction d'erreur: Il y a peut être plus optimale des choses à optimiser, mais cela fonctionne étonnamment bien:

np.sqrt((X1-X2+delta_x)**2+(Y1-Y2)**2).sum()

Qui est, de minimiser la distance Euclidienne entre les deux courbes en seulement ajuster l'axe des x (phase).

import numpy as np

def yvals(x):
    return np.sin(x)+np.sin(2*x)+np.sin(3*x)

dx = .1
unknown_shift = .03 * np.random.random() * dx

X1  = np.arange(0,2*np.pi,dx)  #some X values
X2  = X1 + unknown_shift

Y1 = yvals(X1)
Y2 = yvals(X2) # shifted Y
Y2 += .1*np.random.normal(size=X1.shape)  # now with noise

def err_func(p):
    return np.sqrt((X1-X2+p[0])**2+(Y1-Y2)**2).sum()

from scipy.optimize import fmin

p0 = [0,] # Inital guess of no shift
found_shift = fmin(err_func, p0)[0]

print "Unknown shift: ", unknown_shift
print "Found   shift: ", found_shift
print "Percent error: ", abs((unknown_shift-found_shift)/unknown_shift)

Un exemple d'exécution donne:

Optimization terminated successfully.
         Current function value: 4.804268
         Iterations: 6
         Function evaluations: 12
Unknown shift:  0.00134765446268
Found   shift:  0.001375
Percent error:  -0.0202912082305

Pourquoi ne pas simplement exécuter X2 - X1 ? Pas d'itérations nécessaires et un résultat parfait! Non, sérieusement, X2 est inconnu, de sorte que vous êtes en fait tricher lorsque vous l'utilisez dans votre err_func! Même si je dois admettre que vous m'a inspiré pour ma réponse...

InformationsquelleAutor Hooked

Vous devez vous connecter pour publier un commentaire.