Comment puis-je tirer des données audio à partir de mon fichier wav?

Tout d'abord c'est pour les devoirs ou... de projet.

Je vais avoir du mal à comprendre l'idée derrière la façon de dessiner les données du son des vagues sur un graphique en Java pour un projet.
Je dois faire ce travail entièrement à partir de zéro avec une INTERFACE utilisateur et tout donc en gros, faire un .wav fichier de l'éditeur.
La principale question que je vais avoir est d'obtenir les données audio dans le graphe d'être dessiné. Actuellement, j'ai généré de façon aléatoire une matrice de valeurs, juste être établi dès maintenant.

Pour l'instant j'ai un mini-programme en cours d'exécution et à la validation du fichier wav vraiment être un fichier wav.

Je suis en train de lire avec un FileInputStream et de la validation: le RIFF octets(0-3), FileLength(4-7), VAGUE octets(8-11), puis le format de morceau format(à partir de la fin du RIFF morceau; et le positionnement de l'index à la fin de celui-ci et de donner le format de 0 à 3, longueur de format de bloc de 4 à 7, puis les 16 octets pour toutes les spécifications de la vague de fichiers et le stockage de celles de leurs variables nommées.

Une fois que je reçois pour le segment de DONNÉES et sa longueur un passé toutes mes données audio et c'est ce que je ne suis pas sûr de la façon de stocker chaque octet de données audio ou même de le traduire à la valeur qui est liée à l'amplitude du son. Je pensais que la validation a été similaire de sorte qu'il serait le même, mais elle ne semble pas être de cette façon... ou alors j'ai compliqué un truc super simple, depuis que j'ai commencé à regarder cette depuis quelques jours maintenant.

Toute aide est très appréciée grâce.

fermer les doublons: stackoverflow.com/questions/11017283/...
Êtes-vous autorisé à utiliser Java API Sound pour ce devoirs? D'accord avec @Denis, cela semble un doublon.
Vous pouvez prendre un coup d'oeil à stackoverflow.com/questions/12066698/... ou stackoverflow.com/questions/12035799/...
"la valeur qui est liée à l'amplitude du son." C'est un concept difficile à transmettre, mais la le son amplitude ne vient jamais de groupes des valeurs de l'échantillon. Si toutes les valeurs de l'échantillon ont été " 128 "l'individu de l'échantillon de valeurs que peut impliquer plein volume" pourtant, le résultat serait le silence le plus complet.
oui, je suis autorisé à utiliser quoi que ce soit. mais le professeur nous a dit, comme à chaque échantillon sera pratiquement un tableau de l'index et la valeur va être son amplitude qui avait plus de nous confondre, je ai fait cela pendant 36 heures non-stop et se sentait comme je n'ai pas encore vu l'herbe à l'extérieur pour une semaine. merci beaucoup jusqu'à présent pour tous les conseils et les liens de tout le monde, je pense que je devrais en avoir assez pour le comprendre, à bientôt. Je pense que @AndrewThompson votre explication est plus claire. je ne savais pas de fichier wave échantillons sonores des groupes.
"je suis autorisé à utiliser n'importe quoi" Alors vous allez certainement vouloir vérifier Java sound.

InformationsquelleAutor Kevin Heng | 2012-10-14

16

Je ne suis pas un programmeur Java, mais je sais un peu juste sur le rendu audio j'espère donc que la suite peut-être d'un peu d'aide...

Donné que vous aurez presque toujours avoir un beaucoup plus grand nombre d'échantillons de pixels disponibles la meilleure chose à faire serait de dessiner à partir d'une mise en cache de réduction ou de "résumé" de l'échantillon de données. C'est généralement la façon dont les éditeurs audio (tels que Audacity) de rendre les données audio. En fait la stratégie la plus courante consiste à calculer le nombre d'échantillons par pixel, puis de trouver le maximum et le minimum des échantillons pour chaque bloc de taille SamplesPerPixel, puis tracez une ligne verticale entre chaque max-min paire. Vous pourriez cache cette réduction, ou peut-être une série de réductions pour différents niveaux de zoom. L'audace des caches pour les fichiers temporaires ('bloquer les fichiers') sur le disque.

Ci-dessus n'est peut-être quelque chose d'une simplification excessive, cependant, parce que dans la réalité, vous voulez calculer l'initiale max-min paires à partir d'un bloc de taille fixe - dire 256 échantillons plutôt que de partir d'une taille SamplesPerPixel. Ensuite, vous pouvez calculer plus "à la volée" des réductions à partir de cette mise en cache de réduction. Le point est que SamplesPerPixel s'agit d'une dynamique à la quantité, car l'utilisateur peut redimensionner la zone de travail à tout moment (l'espoir qui fait sens...).

Rappelez-vous aussi que lorsque vous dessinez sur votre toile, vous aurez besoin à l'échelle les valeurs de l'échantillon par la largeur et la hauteur de la toile. La meilleure façon de le faire (dans le sens vertical, au moins) est de normaliser les échantillons, puis multiplier par la toile en hauteur. 16-bit audio se compose d'échantillons dans la gamme [-32768, 32767], afin de normaliser il suffit de faire une division flottante par 32768. Puis d'inverser le signe (pour inverser la forme d'onde de la toile coordonnées), ajouter 1 (pour compenser pour les valeurs négatives) et de le multiplier par la moitié la toile hauteur. C'est comment je fais, de toute façon.

Cette page montre comment construire un rudimentaire affichage de forme d'onde avec Java Swing. Je n'ai pas regardé en détail, mais je pense qu'il downsamples les données, plutôt que le calcul du max-min paires. Ce sera, bien sûr, de ne pas fournir aussi précis que la réduction de la max-min de la méthode, mais il est plus facile à calculer.

Si vous voulez savoir comment faire les choses correctement, vous devez creuser dans le code source d'Audacity (être mis en garde, cependant - il est assez ardu C++). Pour obtenir un aperçu général vous pourriez regarder "Un Rapide Structure de Données pour les Disques à Base de Montage Audio', par l'auteur original de l'Audace, Dominic Mazzoni. Vous aurez besoin d'acheter que de CMJ, cependant.
- je vais re-lire ce jusqu'à ce que j'donner un sens de ce qui semble être une bonne idée, je n'ai pas pensé merci!
- Heng Oui, toutes mes excuses si cela semble compliqué, mais il est en fait très difficile d'obtenir le droit - comme je l'ai découvert moi-même quand j'ai commencé à écrire mon propre éditeur audio. Je suggère de commencer avec une simple réduction de blocs de 256 échantillons. Prendre le max et le min de l'échantillon de chacun de ces blocs et de les mettre en cache quelque part (dans la mémoire est OK pour commencer avec, pour les petits fichiers). Ensuite, il suffit de dessiner une ligne verticale à chaque pixel entre chaque max et min de l'échantillon, à l'échelle appropriée.
- Heng Il est important de se rappeler que le système de coordonnées de votre écran, et donc votre toile (ou ce que vous voulez appeler votre surface de dessin) - a son origine dans le coin en haut à gauche, et sera donc à l'envers vers le bas par rapport à l'échantillon de données. C'est pourquoi j'ai suggéré de changer le signe de chacun (normalisée) de l'échantillon.
- ah ok je n'ai jamais considéré que l'échantillon soit inversée. nous avons également eu à mettre en œuvre transformée de fourier discrète des échantillons trop(ont que le travail déjà juste besoin de savoir comment prendre dans les échantillons). merci beaucoup pour l'aide!
InformationsquelleAutor ChrisM
2

Pour des fichiers WAV standard, il est en fait assez facile. Une fois que vous avez passé les en-têtes, vous venez d'interpréter tous les 16 bits comme un complément à deux entier. Je vous recommande d'utiliser un DataInputStream, depuis lors, c'est aussi simple que d'appeler readShort().

Ce sont les valeurs d'amplitude à chaque point de l'échantillon. Vous pouvez faire des moyennes ou quelque chose, parce que la plupart du temps il n'y aura plus de façon échantillons de pixels horizontaux. En essayant de tracer tous les échantillons sur une sorte de ligne graphique peut ne pas être le meilleur moyen.
- qu'en 8 bits?
- Je ne suis pas un expert en WAV, mais je pense que les 8 bits par échantillon serait similaire, mais je pense qu'elle est stockée sous forme d'octets non signés. Utiliser le DataInputStream.readUnsignedByte() la méthode.
- Correct pour les fichiers wav, 8 bits, les fichiers ne sont pas signés.
- Ah oui notre professeur veut aussi que nous de tracer les échantillons sur un graphique trop.. donc je ne peux pas vraiment aller autour de @user141603, il doit avoir des fonctions de zoom, plus tard, sur et tels :/ copier et coller la manipulation de sélectionner la zone
- Traçage de tous les échantillons sur un graphique peut exiger une tonne de résolution horizontale de toute clarté. Si, lorsque vous lisez le fichier, vous pouvez stocker les échantillons dans un tableau, copier/coller devient tout simplement le Système.arraycopy.
InformationsquelleAutor 0xFE
0

Première chose que vous devez faire est de lire les données brutes. L'écriture d'un fichier Wav analyseur n'est pas trop dur, mais vous pouvez également utiliser le javasound API. Il y a quelques grands conseils sur et exemple de code pour l'utilisation de cette api ici:

http://www.jsresources.org/

Si vous souhaitez écrire votre propre analyseur, vous pouvez commencer ici:

https://ccrma.stanford.edu/courses/422/projects/WaveFormat/

Une fois que vous avez les données brutes, vous pouvez l'afficher en fonction du temps. Ceci est appelé la forme d'onde.

Toutefois, l'affichage de la forme d'onde est beaucoup de temps lorsque l'utilisateur a "zoom" sur un lot de données: une heure vaut la peine de données peut prendre beaucoup de temps pour rendre de cette manière. La plupart des applications, par conséquent, précalculer les quelques données pour faire le dessin le zoom de données plus rapide. La "bonne" façon de le faire est comme suit:
- boucle sur les blocs d'échantillons dans le fichier (entre 50 et 500)
  - lire le bloc d'échantillons
  - prendre la valeur absolue de l'ensemble de ces échantillons
  - prendre le maximum de la valeur absolue
  - emmagasiner le maximum que le "zoom" de la valeur pour ce bloc
Quand je dis "correct", je veux dire, c'est ce que tout le monde le fait, alors il en résulte un affichage qui ressemble à ce que les gens attendent. Si vous faites quelque chose de différent (par exemple, le calcul de journaux ou de moyenne au lieu de chercher la crête), vous obtiendrez quelque chose qui ne regarde pas à droite, comme cet homme a découvert:

dessin de la forme d'onde de conversion de la DB courges il
- Très bien merci! cela fait beaucoup de sens trop que je n'étais pas trop sûre de savoir quoi faire avec les paires d'échantillons, la plupart de mes devoirs projet permettra d'accomplir, c'est juste de la modification d'un fichier wave, et seulement quelques secondes de données qui pourrait être très bien 60000+ les échantillons. mais rien de plus important que cela. pas de mp3 et la comme. juste décompressé .les fichiers wav
InformationsquelleAutor Bjorn Roche

Vous devez vous connecter pour publier un commentaire.