Python - sous-échantillonnage wav fichier audio

J'ai pour sous-échantillonner un fichier wav à partir de 44100 hz à 16000Hz sans l'aide extérieure de bibliothèques python, donc de préférence wave et/ou audioop. J'ai essayé en changeant simplement les fichiers wav framerate à 16000 en utilisant setframerate fonction, mais cela ralentit l'ensemble de l'enregistrement. Comment puis-je sous-échantillonner le fichier audio à 16kHz et maintenir la même longueur de l'audio?

Je vous remercie beaucoup à l'avance

Si vous allez vers le bas pour 11025Hz il sera plus facile, il suffit de filtre passe-bas, puis prenez tous les 4 échantillons
Est audioop de ratecv ce que vous êtes après? docs.python.org/2/library/audioop.html#audioop.ratecv
Il doit être 16kHz parce que notre pipeline de l'outil a besoin d'exporter pour l'Unité des projets. Pourriez-vous me donner un exemple d'utilisation de la audioop.ratecv fonction? Parce que je suis un peu perdu avec le fragment paramètre de cette fonction. Comment puis-je l'obtenir? @JimJeffries

OriginalL'auteur d3cr1pt0r | 2015-06-03

8

Vous pouvez utiliser Librosa de la fonction load (),
```
import librosa    
y, s = librosa.load('test.wav', sr=8000) # Downsample 44.1kHz to 8kHz
```
L'effort supplémentaire pour installer Librosa vaut probablement la peine de la paix de l'esprit.

Pro-tip: lors de l'installation de Librosa sur Anaconda, vous devez installer ffmpeg, ainsi
```
pip install librosa
conda install -c conda-forge ffmpeg
```
Cela vous permet d'économiser le NoBackendError() erreur.

Probablement le meilleur commentaire ici, et semble plus à jour. Il lui manque juste le enregistrer que l'opération demandée, qui est aussi simple que librosa.output.write_wav(filename, y, sr).

OriginalL'auteur wafflecat

Merci à vous tous pour vos réponses. J'ai trouvé une solution déjà et il fonctionne très belle. Ici est la fonction entière.

def downsampleWav(src, dst, inrate=44100, outrate=16000, inchannels=2, outchannels=1):
    if not os.path.exists(src):
        print 'Source not found!'
        return False

    if not os.path.exists(os.path.dirname(dst)):
        os.makedirs(os.path.dirname(dst))

    try:
        s_read = wave.open(src, 'r')
        s_write = wave.open(dst, 'w')
    except:
        print 'Failed to open files!'
        return False

    n_frames = s_read.getnframes()
    data = s_read.readframes(n_frames)

    try:
        converted = audioop.ratecv(data, 2, inchannels, inrate, outrate, None)
        if outchannels == 1:
            converted = audioop.tomono(converted[0], 2, 1, 0)
    except:
        print 'Failed to downsample wav'
        return False

    try:
        s_write.setparams((outchannels, 2, outrate, 0, 'NONE', 'Uncompressed'))
        s_write.writeframes(converted)
    except:
        print 'Failed to write wav'
        return False

    try:
        s_read.close()
        s_write.close()
    except:
        print 'Failed to close wav files'
        return False

    return True

Je sais c'est vieux mais je viens d'avoir le même problème donc j'ai essayé le code et je pense que c'est un bug subtil. Si mon inchannels=1 et outchannels=1 la tomono fonction sera appelée de toute façon qui bousille mon signal audio (la longueur est coupée en deux). Aussi lors de l'écriture de la cadres de, ne devriez-vous pas écrire seulement converti[0] (selon si tomono a été appelé évidemment) parce que le newstate retourné par ratecv est pas pertinent?
Les modules ci-dessus sont tous dans la prévention des mst lib

OriginalL'auteur d3cr1pt0r

Vous pouvez utiliser de rééchantillonnage dans scipy. C'est un peu un mal de tête à faire, car il y a certains type de conversion à effectuer entre le bytestring natif de python et les tableaux nécessaires dans scipy. Il y a un autre mal de tête, parce que dans la vague du module en Python, il n'y a aucun moyen de savoir si les données sont signées ou non (seulement si elle est de 8 ou 16 bits). Il peut (doit) travailler pour les deux, mais je n'ai pas testé.

Voici un petit programme qui convertit (non signé) 8 et 16 bits mono de 44,1 à 16. Si vous avez stéréo, ou utiliser d'autres formats, il ne devrait pas être difficile de s'adapter. Modifier l'entrée/sortie des noms au début du code. Jamais eu à utiliser les arguments de ligne de commande.

#!/usr/bin/env python
# -*- coding: utf-8 -*-
#
#  downsample.py
#  
#  Copyright 2015 John Coppens <[email protected]>
#  
#  This program is free software; you can redistribute it and/or modify
#  it under the terms of the GNU General Public License as published by
#  the Free Software Foundation; either version 2 of the License, or
#  (at your option) any later version.
#  
#  This program is distributed in the hope that it will be useful,
#  but WITHOUT ANY WARRANTY; without even the implied warranty of
#  MERCHANTABILITY or FITNESS FOR A PARTICULAR PURPOSE.  See the
#  GNU General Public License for more details.
#  
#  You should have received a copy of the GNU General Public License
#  along with this program; if not, write to the Free Software
#  Foundation, Inc., 51 Franklin Street, Fifth Floor, Boston,
#  MA 02110-1301, USA.
#  
#
inwave = "sine_44k.wav"
outwave = "sine_16k.wav"
import wave
import numpy as np
import scipy.signal as sps
class DownSample():
def __init__(self):
self.in_rate = 44100.0
self.out_rate = 16000.0
def open_file(self, fname):
try:
self.in_wav = wave.open(fname)
except:
print("Cannot open wav file (%s)" % fname)
return False
if self.in_wav.getframerate() != self.in_rate:
print("Frame rate is not %d (it's %d)" % \
(self.in_rate, self.in_wav.getframerate()))
return False
self.in_nframes = self.in_wav.getnframes()
print("Frames: %d" % self.in_wav.getnframes())
if self.in_wav.getsampwidth() == 1:
self.nptype = np.uint8
elif self.in_wav.getsampwidth() == 2:
self.nptype = np.uint16
return True
def resample(self, fname):
self.out_wav = wave.open(fname, "w")
self.out_wav.setframerate(self.out_rate)
self.out_wav.setnchannels(self.in_wav.getnchannels())
self.out_wav.setsampwidth (self.in_wav.getsampwidth())
self.out_wav.setnframes(1)
print("Nr output channels: %d" % self.out_wav.getnchannels())
audio = self.in_wav.readframes(self.in_nframes)
nroutsamples = round(len(audio) * self.out_rate/self.in_rate)
print("Nr output samples: %d" %  nroutsamples)
audio_out = sps.resample(np.fromstring(audio, self.nptype), nroutsamples)
audio_out = audio_out.astype(self.nptype)
self.out_wav.writeframes(audio_out.copy(order='C'))
self.out_wav.close()
def main():
ds = DownSample()
if not ds.open_file(inwave): return 1
ds.resample(outwave)
return 0
if __name__ == '__main__':
main()

OriginalL'auteur jcoppens

0

Pour sous-échantillonner (également appelé les décimer), le signal (il s'agit de réduire la fréquence d'échantillonnage), ou de sur-échantillonner (augmentation de la fréquence d'échantillonnage) vous avez besoin d'interpoler entre vos données.

L'idée est que vous devez en quelque sorte tirage une courbe entre vos points, et ensuite prendre les valeurs de cette courbe à la nouvelle fréquence d'échantillonnage. C'est parce que vous voulez connaître le valuesof l'onde sonore à un moment qui n'a pas été échantillonnés, alors vous devez deviner cette valeur par une manière ou d'une autre. Le seul cas où le sous-échantillonnage serait facile, c'est quand vous divisez le taux d'échantillonnage par un entier $k$. Dans ce cas vous avez juste à prendre des seaux de $k$ d'échantillons et de ne garder que la première. Mais ce ne sera pas répondre à votre question. Voir l'image ci-dessous où vous avez une courbe échantillonnées à deux échelles différentes.

Vous pourriez le faire à la main si vous comprenez le principe, mais je vous recommande fortement de l'utiliser d'une bibliothèque. La raison en est que l'interpolation le droit chemin n'est pas facile ou évident.

Vous pouvez utiliser une interpolation linéaire (points de connexion avec une ligne) ou d'un binôme d'interpolation (se connecter en trois points avec un morceau de degré) ou (parfois, le meilleur pour le son) l'utilisation d'une transformée de Fourier et l'interpolation dans l'espace des fréquences.
Depuis la transformée de fourier n'est pas quelque chose que vous voulez ré-écrire à la main, si vous voulez un bon échantillonnage/supsampling,
Voir l'image ci-dessous pour les deux courbe de suréchantillonnage à l'aide de différents algorithmes de scipy. Le "rééchantillonnage" fonction de l'utilisation de la transformation de fourier.

J'étais en effet dans le cas que j'était en train de charger un 44100Hz fichier wave et exigé une 48000Hz de données échantillonnées, j'ai donc écrit les quelques lignes suivantes pour charger mes données:
```
    # Imports
from scipy.io import wavfile
import scipy.signal as sps
# Your new sampling rate
new_rate = 48000
# Read file
sampling_rate, data = wavfile.read(path)
# Resample data
number_of_samples = round(len(data) * float(new_rate) / sampling_rate))
data = sps.resample(data, number_of_samples)
```
Notez que vous pouvez aussi utiliser la méthode les décimer dans le cas où vous ne faites que des sous-échantillonnage et veulent quelque chose de plus rapide que de fourier.

OriginalL'auteur Jeremy Cochoy

Vous devez vous connecter pour publier un commentaire.