À l'aide de l'Apple FFT et Accélérer le Cadre

Personne n'a utilisé le Apple FFT pour une application iPhone ou encore savoir où je pourrais trouver un exemple d'application quant à la façon de l'utiliser? Je sais que Apple a un exemple de code posté, mais je ne suis pas vraiment sûr de savoir comment le mettre en œuvre dans un projet réel.

Bon cri. La documentation est abominable.
En particulier la section sur les données de la commande - qui en réalité ne s'applique pas dans de nombreux cas.

InformationsquelleAutor Ian Oswald | 2010-08-03

133

Je viens de recevoir la FFT code de travail pour un iPhone de projet:
- créer un nouveau projet
- supprimer tous les fichiers sauf pour le principal.m et xxx_info.plist
- va paramètres de projet et de recherche pour la pch et de l'empêcher d'essayer de charger une .pch (comme nous venons de le supprimé)
- copier coller le code exemple de plus de ce que vous avez en main.m
- supprimer la ligne #include Carbone. Le carbone est OSX.
- supprimer tous les cadres, et ajouter accélérer le cadre
Vous pourriez aussi avoir besoin de supprimer une entrée de info.plist que dit le projet de charger un xib, mais je suis sûr à 90% que vous n'avez pas besoin de s'embêter avec ça.

REMARQUE: le Programme des sorties de la console, les résultats sont comme 0.000 ce n'est pas une erreur, c'est juste très très vite

Ce code est vraiment bêtement obscur; il est généreusement commenté, mais les commentaires ne sont pas réellement rendre la vie plus facile.

Fondamentalement au cœur de l'est:
```
vDSP_fft_zrip(setupReal, &A, stride, log2n, FFT_FORWARD);
vDSP_fft_zrip(setupReal, &A, stride, log2n, FFT_INVERSE);
```
FFT sur n réel des flotteurs, et puis en sens inverse pour revenir là où nous avons commencé.
ip signifie en place, ce qui signifie &Un est écrasée
C'est la raison de tout cet emballage spécial sottises, de sorte que nous pouvons écraser la valeur de retour dans le même espace que de l'envoyer en valeur.

Pour donner un peu de perspective (comme, comme dans: pourquoi serions-nous à l'aide de cette fonction, en premier lieu?), Disons que nous voulons effectuer la détection de hauteur sur entrée microphone, et nous avons le configurer de sorte que certains de rappel se déclenche à chaque fois que le microphone est en 1024 flotteurs. En supposant que le microphone de fréquence d'échantillonnage est de 44,1 kHz, de sorte que l' ~44 images /sec.

Donc, de notre temps-fenêtre quelle que soit la durée du temps de 1024 échantillons, c'est à dire 1/44 s.

Nous serait Un pack avec 1024 flotte à partir du microphone, réglez log2n=10 (2^10=1024), précalculer quelques bobines (setupReal) et:
```
vDSP_fft_zrip(setupReal, &A, stride, log2n, FFT_FORWARD);
```
Maintenant Un contient n/2 nombres complexes. Ceux-ci représentent les n/2 bacs de fréquences:
- bin[1].idealFreq = 44Hz -- c'est à dire La fréquence la plus basse que nous pouvons détecter de manière fiable est UNE onde à l'intérieur de cette fenêtre, c'est à dire un 44Hz vague.
- bin[2].idealFreq = 2 * 44Hz
- etc.
- bin[512].idealFreq = 512 * 44Hz -- la fréquence La plus élevée, nous pouvons détecter (connu comme la fréquence de Nyquist) est l'endroit où chaque paire de points représente une onde, c'est à dire 512 complète des ondes à l'intérieur de la fenêtre, c'est à dire 512 * 44Hz, ou: n/2 * bin[1].idealFreq
- En fait il y a un Bin, Bin[0], qui est souvent désigné comme "DC Offset'. Il se trouve que Bin[0] et Ben[n/2] aura toujours complexe de la composante 0, A[0].realp est utilisé pour stocker Bin[0] et[0].imagp est utilisé pour stocker Bin[n/2]
Et l'importance de chaque nombre complexe est la quantité d'énergie de vibration autour de cette fréquence.

Donc, comme vous pouvez le voir, il ne serait pas un très grand terrain de détecteur car il n'a pas presque assez fine granularité. Il y a une ruse L'extraction précise des fréquences de FFT des Bacs à l'aide de changement de phase entre les images pour obtenir la fréquence exacte pour un bin.

Ok, Maintenant sur le code:

Note la "propriété intellectuelle" dans vDSP_fft_zrip, = 'au lieu de' ie de sortie remplace Un ("r" signifie qu'il prend un réel entrées)

Regarder la documentation sur vDSP_fft_zrip,

Réel les données sont stockées dans split complexe
forme, avec de curieuses réels stockés sur le
imaginaire côté de la division complexe
forme et même de reals en stockées sur le
côté réel.

c'est probablement la chose la plus difficile à comprendre. Nous utilisons le même conteneur (&A) tout le chemin à travers le processus. donc, au début, nous voulons remplir avec de n nombres réels. après la FFT, il va être tenue n/2 nombres complexes. nous avons ensuite jeter que dans la transformation inverse, et nous espérons sortir notre origine n nombres réels.

maintenant, la structure de son programme d'installation pour des valeurs complexes. Donc vDSP besoins de standardiser la façon d'emballer les nombres réels en elle.

donc tout d'abord nous générer des n nombres réels: 1, 2, ..., n
```
for (i = 0; i < n; i++)
    originalReal[i] = (float) (i + 1);
```
Ensuite, nous les emballer dans Un que n/2 complexe #s:
```
//1. masquerades n real #s as n/2 complex #s = {1+2i, 3+4i, ...}
//2. splits to 
//  A.realP = {1,3,...} (n/2 elts)
//  A.compP = {2,4,...} (n/2 elts)
//
vDSP_ctoz(
          (COMPLEX *) originalReal, 
          2,                            //stride 2, as each complex # is 2 floats
          &A, 
          1,                            //stride 1 in A.realP & .compP
          nOver2);                      //n/2 elts
```
Vous avez vraiment besoin de regarder la façon dont Un est alloué pour l'obtenir, peut-être rechercher COMPLEX_SPLIT dans la documentation.
```
A.realp = (float *) malloc(nOver2 * sizeof(float));
A.imagp = (float *) malloc(nOver2 * sizeof(float));
```
Ensuite, nous faire un pré-calcul.

Rapide DSP de la classe de mathématiques bods:
De Fourier théorie prend beaucoup de temps pour obtenir autour de votre tête (j'ai été regarder sur et en dehors depuis plusieurs années maintenant)

Un cisoid est:
```
z = exp(i.theta) = cos(theta) + i.sin(theta)
```
c'est à dire un point sur le cercle unité dans le plan complexe.

Quand vous multipliez les nombres complexes, les angles ajouter. Donc z^k va garder se déplaçant sur le cercle unité; z^k peuvent être trouvés à un angle de k.theta
- Choisir z1 = 0+1i, c'est à dire un quart de tour de l'axe réel, et de l'avis que z1^2 z1^3 z1^4 donnent chacun un quart de tour de sorte que z1^4 = 1
- Choisir z2 = -1, c'est à dire un demi-tour. aussi z2^4 = 1 et z2 a terminé 2 cycles à ce point (z2^2 est également = 1). Alors que vous pourriez penser z1 comme la fréquence fondamentale et z2 comme la première harmonique
- De même z3 = les trois-quarts de la révolution " point c'est à dire -je termine exactement 3 cycles, mais en réalité, le futur 3/4 chaque fois c'est la même chose que d'aller en arrière 1/4 à chaque fois
c'est à dire z3 est juste z1, mais dans la direction opposée, qui s'appelle aliasing

z2 est le plus significatif de la fréquence, que nous avons choisi 4 échantillons de tenir une vague complète.
- z0 = 1+0i, z0^(n'importe quoi)=1, c'est l'offset DC
Vous pouvez exprimer toutes les 4 points du signal comme une combinaison linéaire de z0, z1 et z2
c'est à dire que Vous êtes les projette sur ces vecteurs de base

mais je vous entends demander "que signifie pour le projet d'un signal sur un cisoid?"

Vous pouvez pensez-y de cette façon: L'aiguille tourne autour de la cisoid, donc, à l'exemple de k, l'aiguille est orientée dans la direction k.thêta, et la longueur du signal[k]. Un signal qui correspond à la fréquence de la cisoid exactement renflement la forme obtenue dans une certaine direction. Donc, si vous additionnez toutes les contributions, vous aurez un fort vecteur résultant.
Si la fréquence est pratiquement à la hauteur, que le renflement sera plus faible et se déplacera lentement autour du cercle.
Pour un signal qui ne correspond pas à la fréquence, les contributions annuler l'un l'autre.

http://complextoreal.com/tutorials/tutorial-4-fourier-analysis-made-easy-part-1/ sera vous aider à obtenir une compréhension intuitive.

Mais l'essentiel est; si nous avons choisi de projet 1024 échantillons sur {z0,...,z512} nous aurions précalculer z0 thru z512, et c'est ce que ce calcul prévisionnel étape est.

Notez que si vous faites cela dans le code réel, vous voulez probablement faire cela qu'une seule fois lorsque l'application des charges et de l'appel de la complémentarité de la libération de la fonction une fois quand il se ferme. Ne le faites PAS beaucoup de temps -- c'est cher.
```
//let's say log2n = 8, so n=2^8=256 samples, or 'harmonics' or 'terms'
//if we pre-calculate the 256th roots of unity (of which there are 256) 
//that will save us time later.
//
//Note that this call creates an array which will need to be released 
//later to avoid leaking
setupReal = vDSP_create_fftsetup(log2n, FFT_RADIX2);
```
Il est intéressant de noter que si l'on log2n par exemple à 8, vous pouvez jeter ces valeurs précalculées dans toute la fft fonction qui utilise la résolution <= 2^8. Donc (sauf si vous voulez ultime de la mémoire optimisation) il suffit de créer un jeu pour les plus de haute résolution, vous allez avoir besoin, et de l'utiliser pour tout.

Maintenant, le réel se transforme, en faisant l'utilisation des choses que nous venons de précalculées:
```
vDSP_fft_zrip(setupReal, &A, stride, log2n, FFT_FORWARD);
```
À ce point Un contient n/2 nombres complexes, seul le premier est en fait deux nombres réels (l'offset DC Nyquist #) se faisant passer pour un nombre complexe. La présentation de la documentation explique cet emballage. Il est tout à fait soigné -- fondamentalement, il permet l' (complexe) des résultats de la transformation pour être emballé dans le même espace de mémoire que le (vrai, mais bizarrement) emballage d'entrées.
```
vDSP_fft_zrip(setupReal, &A, stride, log2n, FFT_INVERSE);
```
et de retour... nous aurons encore besoin de décompresser de notre tableau original de A. ensuite, nous comparons juste pour vérifier que nous avons obtenu exactement ce que nous avons commencé avec la libération de notre prédéterminée de bobines et fait!

Mais attendez! avant de déballer, il y a une dernière chose qui doit être fait:
```
//Need to see the documentation for this one...
//in order to optimise, different routines return values 
//that need to be scaled by different amounts in order to 
//be correct as per the math
//In this case...
scale = (float) 1.0 / (2 * n);

vDSP_vsmul(A.realp, 1, &scale, A.realp, 1, nOver2);
vDSP_vsmul(A.imagp, 1, &scale, A.imagp, 1, nOver2);
```
- ses pas 44 43 ! et c'est tellement important à la plus élevée des poubelles! 22050/512 =43 !
- En profondeur explication. Vous pouvez poster la pomme lien pour ce qui se réfère à? J'ai cherché, mais il me conduit à de multiples échantillons, et j'ai vraiment envie de comprendre par le biais de votre explication. Merci!
- C'est un grand poste. Est-il un projet github disponible à l'étape de à l'aide du code?
- Salut. Peut-on voir le code complet quelque part? Je ne peux pas trouver l'Apple échantillon référencé ici. Merci
InformationsquelleAutor P i
26

Voici un exemple réel: Un extrait de c++ qui utilise Accélérer la vDSP fft routines à faire de l'auto-corrélation sur la Télécommande IO audio de l'unité d'entrée. L'utilisation de ce cadre est assez compliqué, mais la documentation n'est pas trop mauvais.
```
OSStatus DSPCore::initialize (double _sampleRate, uint16_t _bufferSize) {
sampleRate = _sampleRate;
bufferSize = _bufferSize;
peakIndex = 0;
frequency = 0.f;
uint32_t maxFrames = getMaxFramesPerSlice();
displayData = (float*)malloc(maxFrames*sizeof(float));
bzero(displayData, maxFrames*sizeof(float));
log2n = log2f(maxFrames);
n = 1 << log2n;
assert(n == maxFrames);
nOver2 = maxFrames/2;
A.realp = (float*)malloc(nOver2 * sizeof(float));
A.imagp = (float*)malloc(nOver2 * sizeof(float));
FFTSetup fftSetup = vDSP_create_fftsetup(log2n, FFT_RADIX2);
return noErr;
}
void DSPCore::Render(uint32_t numFrames, AudioBufferList *ioData) {
bufferSize = numFrames;
float ln = log2f(numFrames);
//vDSP autocorrelation
//convert real input to even-odd
vDSP_ctoz((COMPLEX*)ioData->mBuffers[0].mData, 2, &A, 1, numFrames/2);
memset(ioData->mBuffers[0].mData, 0, ioData->mBuffers[0].mDataByteSize);
//fft
vDSP_fft_zrip(fftSetup, &A, 1, ln, FFT_FORWARD);
//Absolute square (equivalent to mag^2)
vDSP_zvmags(&A, 1, A.realp, 1, numFrames/2);
bzero(A.imagp, (numFrames/2) * sizeof(float));    
//Inverse FFT
vDSP_fft_zrip(fftSetup, &A, 1, ln, FFT_INVERSE);
//convert complex split to real
vDSP_ztoc(&A, 1, (COMPLEX*)displayData, 2, numFrames/2);
//Normalize
float scale = 1.f/displayData[0];
vDSP_vsmul(displayData, 1, &scale, displayData, 1, numFrames);
//Naive peak-pick: find the first local maximum
peakIndex = 0;
for (size_t ii=1; ii < numFrames-1; ++ii) {
if ((displayData[ii] > displayData[ii-1]) && (displayData[ii] > displayData[ii+1])) {
peakIndex = ii;
break;
}
}
//Calculate frequency
frequency = sampleRate / peakIndex + quadInterpolate(&displayData[peakIndex-1]);
bufferSize = numFrames;
for (int ii=0; ii<ioData->mNumberBuffers; ++ii) {
bzero(ioData->mBuffers[ii].mData, ioData->mBuffers[ii].mDataByteSize);
}
}
```
- Excellent exemple, mais pouvez-vous m'indiquer la direction des implémentations de ces deux fonctions: getMaxFramesPerSlice() et quadInterpolate() ?
- Désolé, encore une question... depuis mon audio lpcm 16 bits, je reviens de données entier dans mes tampons, comment pourrais-je le changer efficacement à flotteur pour une utilisation avec la fft code?
- Il ressemble à getMaxFramesPerSlice() est en train de récupérer le nombre d'images qui sont envoyés à chaque fois que le rappel des feux. cela pourrait tout aussi bien avoir été un #define, je pense.
- Par curiosité, qu'est-ce code fait faire? et pourquoi avez-vous besoin de remettre à zéro votre audio entrant tampon?
- c'est un naïf hauteur algorithme de détection à l'aide de l'autocorrélation du signal entrant. getMaxFramesPerSlice() ne peut pas être #defined dans ce cas, car il peut varier avec chaque exécution. La méthode est en fait un wrapper pour l'audio correspondant de l'unité de la propriété de l'accesseur. Ce code remet à zéro l'entrée, car le même tampon est passé à la sortie de l'appareil à zéro, il empêche une boucle de rétroaction.
- Je ne pense pas que vDSP_zvmags devrait être appliquée à l'élément 0, depuis sa partie imaginaire est vraiment la composante réelle de la fréquence de Nyquist seau. Ne devriez-vous pas juste place A.realp[0] et A.imagp[0], et pas bzero A.imagp[0]?
- Salut, pouvez-vous expliquer à quel quadInterpolate(&displayData[peakIndex-1]) n'. Aussi, où est cette fonction de mise en œuvre.
- Bon exemple, mais quand une fonction est cachée comme quadInterpolate il n'aide pas autant qu'il le pouvait. Je vois 2 personnes auparavant en demandant à ce que la fonction est en train de faire.
- Basé sur cet article: dspguru.com/dsp/howtos/how-to-interpolate-fft-peak et la façon dont je vois la fonction d'interpolation utilisée dans un autre autocorrection exemple posté sur ce site, je pense que votre quadinterpolate() nom de la fonction est un abus de langage parce que vous ajoutez le résultat de l'indice et de la fonction d'interpolation est vraiment calculé seulement trois éléments comme suit: float quadinterpolate(float *p) { float y1 = *p++, y2 = *p++, y3 = *p++; return (y3 - y1) / (2 * (2 * y2 - y1 - y3)); }
InformationsquelleAutor Art Gillespie
13

Alors je vais dire Apple FFT Cadre est rapide... Vous avez besoin de savoir comment une FFT afin d'optimiser la détection de hauteur (c'est à dire le calcul de la différence de phase sur chaque FFT afin de trouver la hauteur exacte, pas la hauteur de la plus dominer bin).

Je ne sais pas si c'est de l'aide, mais j'ai téléchargé mon Terrain de Détecteur d'objet à partir de mon tuner app (musicianskit.com/developer.php). Il est un exemple xCode 4 projet de télécharger aussi (donc vous pouvez voir comment la mise en œuvre de travaux).

Je suis en train de travailler sur la mise en ligne d'un exemple de la FFT de la mise en œuvre -- alors restez à l'écoute et je vais mettre à jour ce une fois que cela arrive.

Bon codage!
- Merci pour le partage, mais votre exemple n'est pas à compiler avec les erreurs suivantes: 1). erreur: conflicting types for 'interp' [3]. 2). Auto Correllation/Auto Correllation/AudioController.m:92:32: erreur: l'utilisation de l'identificateur non déclaré 'recordingCallback' [3]
- Le fichier zip liens ne fonctionnent pas.
- github.com/kevmdev/PitchDetectorExample Désolé, j'ai été paresseux... Mais il y a le projet. Il convient de compiler correctement (au moins, il avait fait la dernière fois que j'ai essayé il y a quelques semaines), mais je vais vérifier à nouveau ce soir!
- Une mise à jour de Swift pour cela ?
InformationsquelleAutor Kpmurphy91
4

Voici un autre exemple concret:
https://github.com/krafter/DetectingAudioFrequency
- krafter - je sais que c'est vieux, mais votre pension est génial! je me demandais si il y aurait un moyen de trouver la fréquence la plus élevée à la place de la plus grande fréquence?
- Merci!!!! Pour répondre à votre question, oui, vous le pouvez. Dans le tableau de sortie que vous avez des indices que les fréquences et les valeurs des grandeurs. Donc les premiers éléments est la fréquence la plus basse et le dernier élément est le plus élevé (ou vice versa).
- Mais la fréquence la plus élevée de présence n'est pas vous en dire beaucoup, le monde réel sonore contient toujours ensemble, mais certaines fréquences sont faibles et certains sont de premier plan. Pensez à ce sujet. Notez également que vous ne pouvez détecter gamme limitée de fréquences. C'est le théorème de Nyquist. Vérifier ma réponse ici pour plus de détails: stackoverflow.com/a/19966776/468812
- Ok, très bien. Encore je veux juste voir si je peut détecter une fréquence élevée, comme 18000hz tandis que d'autres, les plus en vue de bruit se produit en même temps. Vous ne savez pas si c'est possible? L'intérieur de cette fonction sur ViewController.mm, ne maxIndex représentent la fréquence la plus élevée trouvée dans le spectre? statique Float32 strongestFrequencyHZ(Float32 *buffer, FFTHelperRef *fftHelper, UInt32 taille, Float32 *freqValue)
- Juste en utilisant mon exemple avec aucune modification, j'ai été en mesure de détecter 18000hz aujourd'hui sur iPhone 4, en utilisant Audacity pour générer ton et SVEN petits haut-parleurs, sans aucun problème. Théoriquement, si vous utilisez 44100 taux d'échantillonnage, vous pouvez détecter jusqu'à 22050. J'ai été également détecter 19000Hz et même à 20 000 hz aujourd'hui. La douleur dans ma tête a également été détecté :))
- Pour détecter 18000Hz bien qu'il existe quelques autres forts fréquences nécessite quelques modifications. Vous pouvez limiter le freq. la gamme que vous écoutez. Par exemple écouter seulement 16000-18000Hz gamme et de voir les pics et les vallées là.
- Dans strongestFrequencyHZ() la fonction maxIndex var représente l'indice dans le tableau des fréquences avec la valeur maximale (magnitude). Vous obtenez alors HZ valeur de l'indice.
- l'écoute dans une plage spécifique sonne bien! J'ai posté une question d'après ce que nous avons discuté. J'espère que vous pouvez aider: stackoverflow.com/questions/30851522/...
- hey krafter , exemple était bon. pouvez-vous m'aider avec mon accordeur de guitare ?
- Merci de poster le code @krafter. Il fournit certainement un très bon aperçu d'un sujet difficile.
InformationsquelleAutor krafter

Vous devez vous connecter pour publier un commentaire.