オーディオ

[Python] 音声データをwav形式に書き出す方法

2025-04-15更新日: 2025-04-15

Pythonで音声データをwav形式に書き出すには、waveモジュールやscipy.io.wavfile、soundfileなどのライブラリを使用できます。

waveモジュールは標準ライブラリで、低レベルな操作が可能です。

scipy.io.wavfile.writeは簡単にwavファイルを書き出せます。

soundfileはより高機能で、サンプリングレートやビット深度の指定が可能です。

音声データは通常、NumPy配列として扱われます。

目次から探す

Pythonで音声データをwav形式に書き出す方法
waveモジュールを使った詳細な手順
scipy.io.wavfileを使った詳細な手順
soundfileライブラリを使った詳細な手順
応用例：音声データの加工とwav形式への書き出し
まとめ

Pythonで音声データをwav形式に書き出す方法

音声データをwav形式で書き出すことは、音声処理やデータ分析において非常に重要です。

Pythonでは、いくつかのライブラリを使用して簡単に音声データをwav形式に変換できます。

以下では、必要なライブラリのインストールから、具体的な書き出し方法までを解説します。

必要なライブラリのインストール

音声データを扱うために、以下のライブラリをインストールします。

ライブラリ名	説明
wave	標準ライブラリで、wavファイルの読み書きが可能
scipy	科学計算ライブラリで、音声データの処理に便利
soundfile	音声ファイルの読み書きができるライブラリ
numpy	数値計算ライブラリで、音声データを配列として扱う

これらのライブラリは、以下のコマンドでインストールできます。

pip install scipy soundfile numpy

waveモジュールを使ったwavファイルの書き出し

waveモジュールを使用すると、wavファイルを簡単に作成できます。

以下は、音声データをwav形式で書き出すサンプルコードです。

import wave
import numpy as np
# サンプリングレートとデータの設定
sample_rate = 44100  # サンプリングレート
duration = 2  # 音声の長さ(秒)
frequency = 440  # 音の周波数(Hz)
# 音声データの生成
t = np.linspace(0, duration, int(sample_rate * duration), endpoint=False)
audio_data = 0.5 * np.sin(2 * np.pi * frequency * t)
# wavファイルの書き出し
with wave.open('output.wav', 'w') as wav_file:
    wav_file.setnchannels(1)  # モノラル
    wav_file.setsampwidth(2)  # 16ビット
    wav_file.setframerate(sample_rate)
    wav_file.writeframes((audio_data * 32767).astype(np.int16).tobytes())

出力結果は、output.wavというファイルが生成されます。

scipy.io.wavfileを使ったwavファイルの書き出し

scipy.io.wavfileモジュールを使用すると、音声データを簡単にwav形式で書き出すことができます。

以下はそのサンプルコードです。

from scipy.io import wavfile
import numpy as np
# サンプリングレートとデータの設定
sample_rate = 44100
duration = 2
frequency = 440
# 音声データの生成
t = np.linspace(0, duration, int(sample_rate * duration), endpoint=False)
audio_data = 0.5 * np.sin(2 * np.pi * frequency * t)
# wavファイルの書き出し
wavfile.write('output_scipy.wav', sample_rate, (audio_data * 32767).astype(np.int16))

出力結果は、output_scipy.wavというファイルが生成されます。

soundfileライブラリを使ったwavファイルの書き出し

soundfileライブラリを使用すると、より多機能な音声ファイルの読み書きが可能です。

以下はそのサンプルコードです。

import soundfile as sf
import numpy as np
# サンプリングレートとデータの設定
sample_rate = 44100
duration = 2
frequency = 440
# 音声データの生成
t = np.linspace(0, duration, int(sample_rate * duration), endpoint=False)
audio_data = 0.5 * np.sin(2 * np.pi * frequency * t)
# wavファイルの書き出し
sf.write('output_soundfile.wav', audio_data, sample_rate)

出力結果は、output_soundfile.wavというファイルが生成されます。

NumPy配列を音声データとして扱う方法

音声データはNumPy配列として扱うことができ、様々な処理が可能です。

例えば、音声データの正規化やフィルタリングなどが行えます。

以下は、NumPy配列を使った音声データの生成と書き出しの例です。

import numpy as np
import soundfile as sf
# サンプリングレートとデータの設定
sample_rate = 44100
duration = 2
frequency = 440
# 音声データの生成
t = np.linspace(0, duration, int(sample_rate * duration), endpoint=False)
audio_data = 0.5 * np.sin(2 * np.pi * frequency * t)
# 音声データの正規化
audio_data_normalized = audio_data / np.max(np.abs(audio_data))
# wavファイルの書き出し
sf.write('output_normalized.wav', audio_data_normalized, sample_rate)

出力結果は、output_normalized.wavというファイルが生成されます。

これにより、音声データをNumPy配列として扱い、様々な処理を行った後にwav形式で書き出すことができます。

waveモジュールを使った詳細な手順

waveモジュールは、Pythonの標準ライブラリの一部であり、wavファイルの読み書きに特化しています。

ここでは、waveモジュールの基本的な使い方から、音声データの読み込みや書き出し、サンプリングレートやチャンネルの設定、バイナリデータの扱い方について詳しく解説します。

waveモジュールの基本的な使い方

waveモジュールを使用するためには、まずインポートします。

基本的な操作として、wavファイルを開く、情報を取得する、データを書き込む、ファイルを閉じるという流れがあります。

import wave
# wavファイルのオープン
with wave.open('example.wav', 'r') as wav_file:
    # wavファイルの情報を取得
    n_channels = wav_file.getnchannels()  # チャンネル数
    sample_width = wav_file.getsampwidth()  # サンプル幅
    frame_rate = wav_file.getframerate()  # サンプリングレート
    n_frames = wav_file.getnframes()  # フレーム数
    print(f'チャンネル数: {n_channels}, サンプル幅: {sample_width}, サンプリングレート: {frame_rate}, フレーム数: {n_frames}')

出力結果は、wavファイルの基本情報が表示されます。

音声データの読み込みと書き出し

音声データを読み込む際は、readframesメソッドを使用します。

書き出しには、writeframesメソッドを使用します。

以下は、音声データを読み込み、新しいwavファイルに書き出すサンプルコードです。

import wave
# wavファイルの読み込み
with wave.open('input.wav', 'r') as wav_file:
    # 音声データの読み込み
    audio_data = wav_file.readframes(wav_file.getnframes())
# 新しいwavファイルに書き出し
with wave.open('output.wav', 'w') as wav_file:
    wav_file.setnchannels(1)  # モノラル
    wav_file.setsampwidth(2)  # 16ビット
    wav_file.setframerate(44100)  # サンプリングレート
    wav_file.writeframes(audio_data)

このコードを実行すると、input.wavから音声データを読み込み、output.wavに書き出します。

サンプリングレートとチャンネルの設定

wavファイルのサンプリングレートやチャンネル数は、音質や音声の特性に大きく影響します。

setnchannelsメソッドでチャンネル数を、setsampwidthメソッドでサンプル幅を、setframerateメソッドでサンプリングレートを設定します。

import wave
# 新しいwavファイルの作成
with wave.open('new_output.wav', 'w') as wav_file:
    wav_file.setnchannels(2)  # ステレオ
    wav_file.setsampwidth(2)  # 16ビット
    wav_file.setframerate(44100)  # サンプリングレート

このコードでは、ステレオの16ビット、44100Hzのwavファイルを作成します。

バイナリデータの扱い方

wavファイルはバイナリ形式で音声データを保存します。

音声データを扱う際は、バイナリデータとして読み書きする必要があります。

以下は、NumPyを使用して生成した音声データをバイナリ形式で書き出す例です。

import wave
import numpy as np
# サンプリングレートとデータの設定
sample_rate = 44100
duration = 2
frequency = 440
# 音声データの生成
t = np.linspace(0, duration, int(sample_rate * duration), endpoint=False)
audio_data = 0.5 * np.sin(2 * np.pi * frequency * t)
# wavファイルの書き出し
with wave.open('binary_output.wav', 'w') as wav_file:
    wav_file.setnchannels(1)  # モノラル
    wav_file.setsampwidth(2)  # 16ビット
    wav_file.setframerate(sample_rate)
    wav_file.writeframes((audio_data * 32767).astype(np.int16).tobytes())

このコードでは、生成した音声データをバイナリ形式でbinary_output.wavに書き出します。

音声データは、tobytes()メソッドを使用してバイナリ形式に変換されます。

scipy.io.wavfileを使った詳細な手順

scipy.io.wavfileモジュールは、音声データを簡単にwav形式で読み書きするための便利なツールです。

ここでは、scipy.io.wavfile.writeの基本的な使い方から、サンプリングレートの指定方法、音声データのフォーマットと型の注意点、書き出し時のエラー対処法について詳しく解説します。

scipy.io.wavfile.writeの基本的な使い方

scipy.io.wavfile.write関数を使用すると、NumPy配列として表現された音声データをwavファイルに書き出すことができます。

以下は、基本的な使い方のサンプルコードです。

from scipy.io import wavfile
import numpy as np
# サンプリングレートと音声データの生成
sample_rate = 44100  # サンプリングレート
duration = 2  # 音声の長さ(秒)
frequency = 440  # 音の周波数(Hz)
# 音声データの生成
t = np.linspace(0, duration, int(sample_rate * duration), endpoint=False)
audio_data = 0.5 * np.sin(2 * np.pi * frequency * t)
# wavファイルの書き出し
wavfile.write('output.wav', sample_rate, (audio_data * 32767).astype(np.int16))

このコードを実行すると、output.wavというファイルが生成され、指定した音声データが書き込まれます。

サンプリングレートの指定方法

サンプリングレートは、音声データの品質に大きく影響します。

wavfile.write関数の第2引数でサンプリングレートを指定します。

一般的なサンプリングレートは44100Hzですが、他にも48000Hzや22050Hzなどがあります。

# サンプリングレートを48000Hzに設定
sample_rate = 48000
wavfile.write('output_48000Hz.wav', sample_rate, (audio_data * 32767).astype(np.int16))

このコードでは、サンプリングレートを48000Hzに設定してoutput_48000Hz.wavというファイルを書き出します。

音声データのフォーマットと型の注意点

音声データは、NumPy配列として表現され、適切なデータ型である必要があります。

wavfile.write関数では、音声データは整数型(通常は16ビット整数)である必要があります。

音声データを適切にスケーリングし、型を変換することが重要です。

# 音声データの生成
audio_data = 0.5 * np.sin(2 * np.pi * frequency * t)
# 音声データを16ビット整数に変換
audio_data_int16 = (audio_data * 32767).astype(np.int16)
# wavファイルの書き出し
wavfile.write('output_int16.wav', sample_rate, audio_data_int16)

このコードでは、音声データを16ビット整数に変換してから書き出しています。

書き出し時のエラー対処法

書き出し時にエラーが発生することがあります。

一般的なエラーとその対処法は以下の通りです。

エラー: ValueError: Input array must be 1-D or 2-D
対処法: 音声データが1次元または2次元のNumPy配列であることを確認してください。

モノラルの場合は1次元、ステレオの場合は2次元である必要があります。

エラー: ValueError: Sample rate must be positive
対処法: サンプリングレートが正の値であることを確認してください。
エラー: ValueError: Input array must be of integer type
対処法: 音声データが整数型であることを確認し、必要に応じて型を変換してください。

これらのエラーを確認し、適切に対処することで、スムーズにwavファイルを書き出すことができます。

soundfileライブラリを使った詳細な手順

soundfileライブラリは、音声ファイルの読み書きに特化した強力なツールです。

ここでは、soundfile.writeの基本的な使い方から、サンプリングレートやビット深度の設定、モノラルとステレオの切り替え、書き出し時のエラー対処法について詳しく解説します。

soundfile.writeの基本的な使い方

soundfile.write関数を使用すると、NumPy配列として表現された音声データをwavファイルに書き出すことができます。

以下は、基本的な使い方のサンプルコードです。

import soundfile as sf
import numpy as np
# サンプリングレートと音声データの生成
sample_rate = 44100  # サンプリングレート
duration = 2  # 音声の長さ(秒)
frequency = 440  # 音の周波数(Hz)
# 音声データの生成
t = np.linspace(0, duration, int(sample_rate * duration), endpoint=False)
audio_data = 0.5 * np.sin(2 * np.pi * frequency * t)
# wavファイルの書き出し
sf.write('output.wav', audio_data, sample_rate)

このコードを実行すると、output.wavというファイルが生成され、指定した音声データが書き込まれます。

サンプリングレートとビット深度の設定

soundfile.write関数では、サンプリングレートとビット深度を指定することができます。

デフォルトでは、サンプリングレートは44100Hz、ビット深度は32ビット浮動小数点ですが、必要に応じて変更できます。

# サンプリングレートとビット深度の設定
sample_rate = 48000  # サンプリングレートを48000Hzに設定
sf.write('output_48000Hz.wav', audio_data, sample_rate, subtype='PCM_16')

このコードでは、サンプリングレートを48000Hz、ビット深度を16ビットに設定してoutput_48000Hz.wavというファイルを書き出します。

モノラルとステレオの切り替え

音声データはモノラルまたはステレオとして書き出すことができます。

モノラルの場合は1次元の配列、ステレオの場合は2次元の配列を使用します。

以下は、モノラルとステレオの切り替えの例です。

# モノラル音声データの生成
audio_data_mono = 0.5 * np.sin(2 * np.pi * frequency * t)
# wavファイルの書き出し(モノラル)
sf.write('output_mono.wav', audio_data_mono, sample_rate)
# ステレオ音声データの生成
audio_data_stereo = np.column_stack((audio_data_mono, audio_data_mono))
# wavファイルの書き出し(ステレオ)
sf.write('output_stereo.wav', audio_data_stereo, sample_rate)

このコードでは、モノラル音声データをoutput_mono.wavに、ステレオ音声データをoutput_stereo.wavに書き出します。

書き出し時のエラー対処法

書き出し時にエラーが発生することがあります。

一般的なエラーとその対処法は以下の通りです。

エラー: ValueError: Input array must be 1-D or 2-D
対処法: 音声データが1次元(モノラル)または2次元(ステレオ)のNumPy配列であることを確認してください。
エラー: ValueError: Sample rate must be positive
対処法: サンプリングレートが正の値であることを確認してください。
エラー: ValueError: Input array must be of integer type
対処法: 音声データが適切な型(通常は浮動小数点または整数型)であることを確認し、必要に応じて型を変換してください。

これらのエラーを確認し、適切に対処することで、スムーズにwavファイルを書き出すことができます。

応用例：音声データの加工とwav形式への書き出し

音声データを扱う際には、さまざまな加工を行うことができます。

ここでは、音声データの正規化、フィルタリング、結合、分割、エフェクト適用の各手法を紹介し、それぞれの結果をwav形式で書き出す方法を解説します。

音声データの正規化と書き出し

音声データの正規化は、音量を一定の範囲に収めるための処理です。

以下のコードでは、音声データを正規化し、wavファイルに書き出します。

import numpy as np
import soundfile as sf
# サンプリングレートと音声データの生成
sample_rate = 44100
duration = 2
frequency = 440
# 音声データの生成
t = np.linspace(0, duration, int(sample_rate * duration), endpoint=False)
audio_data = 0.5 * np.sin(2 * np.pi * frequency * t)
# 音声データの正規化
audio_data_normalized = audio_data / np.max(np.abs(audio_data))
# wavファイルの書き出し
sf.write('normalized_output.wav', audio_data_normalized, sample_rate)

このコードを実行すると、音声データが正規化され、normalized_output.wavというファイルが生成されます。

音声データのフィルタリングと書き出し

フィルタリングは、特定の周波数帯域を強調または減衰させる処理です。

以下の例では、ローパスフィルタを適用します。

from scipy.signal import butter, lfilter
# ローパスフィルタの設計
def butter_lowpass(cutoff, fs, order=5):
    nyq = 0.5 * fs
    normal_cutoff = cutoff / nyq
    b, a = butter(order, normal_cutoff, btype='low', analog=False)
    return b, a
def lowpass_filter(data, cutoff, fs, order=5):
    b, a = butter_lowpass(cutoff, fs, order=order)
    y = lfilter(b, a, data)
    return y
# フィルタリングの適用
cutoff_frequency = 1000  # カットオフ周波数
filtered_audio = lowpass_filter(audio_data, cutoff_frequency, sample_rate)
# wavファイルの書き出し
sf.write('filtered_output.wav', filtered_audio, sample_rate)

このコードを実行すると、フィルタリングされた音声データがfiltered_output.wavに書き出されます。

音声データの結合と書き出し

複数の音声データを結合することで、新しい音声ファイルを作成できます。

以下の例では、2つの音声データを結合します。

# 2つの音声データの生成
audio_data2 = 0.5 * np.sin(2 * np.pi * (frequency + 200) * t)
# 音声データの結合
combined_audio = np.concatenate((audio_data, audio_data2))
# wavファイルの書き出し
sf.write('combined_output.wav', combined_audio, sample_rate)

このコードを実行すると、結合された音声データがcombined_output.wavに書き出されます。

音声データの分割と書き出し

音声データを特定の時間で分割することも可能です。

以下の例では、音声データを1秒ごとに分割します。

# 音声データの分割
split_duration = 1  # 分割する長さ(秒)
split_samples = int(sample_rate * split_duration)
# 分割した音声データのリスト
split_audio = [audio_data[i:i + split_samples] for i in range(0, len(audio_data), split_samples)]
# 各分割データをwavファイルに書き出し
for idx, segment in enumerate(split_audio):
    sf.write(f'split_output_{idx}.wav', segment, sample_rate)

このコードを実行すると、分割された音声データがsplit_output_0.wav、split_output_1.wavなどのファイルに書き出されます。

音声データのエフェクト適用と書き出し

音声データにエフェクトを適用することで、さまざまな音質を楽しむことができます。

以下の例では、リバーブエフェクトを簡単に実装します。

def apply_reverb(data, decay=0.5):
    reverb_data = np.zeros(len(data))
    for i in range(len(data)):
        reverb_data[i] = data[i] + decay * (reverb_data[i - 1] if i > 0 else 0)
    return reverb_data
# リバーブエフェクトの適用
reverb_audio = apply_reverb(audio_data)
# wavファイルの書き出し
sf.write('reverb_output.wav', reverb_audio, sample_rate)