オーディオ

[Python] 音声データをmp3形式で保存する方法

2025-04-15更新日: 2025-04-15

Pythonで音声データをmp3形式で保存するには、pydubライブラリを使用するのが一般的です。

まず、pydubとffmpegをインストールします。

pydubは音声ファイルの操作を簡単に行えるライブラリで、ffmpegは音声や動画の変換をサポートするツールです。

音声データをAudioSegmentオブジェクトとして読み込み、exportメソッドを使ってmp3形式で保存します。

例えば、audio.export("output.mp3", format="mp3")のように使用します。

目次から探す

pydubライブラリを使った音声データのmp3形式保存

pydubとは？

pydubは、Pythonで音声データを簡単に操作するためのライブラリです。

音声の読み込み、編集、変換、保存などの機能を提供しており、特にmp3形式の音声ファイルの取り扱いが得意です。

pydubを使用することで、音声データの加工を直感的に行うことができます。

pydubのインストール方法

pydubはPythonのパッケージ管理ツールであるpipを使用してインストールできます。

以下のコマンドを実行してください。

pip install pydub

ffmpegのインストールと設定

pydubは音声ファイルの変換や処理にffmpegを利用します。

ffmpegをインストールするには、以下の手順を実行します。

Windowsの場合:

ffmpegの公式サイトからWindows用のバイナリをダウンロードします。
ダウンロードしたzipファイルを解凍し、ffmpeg.exeのパスを環境変数に追加します。

macOSの場合:

Homebrewを使用してインストールします。

以下のコマンドを実行します。

brew install ffmpeg

Linuxの場合:

パッケージマネージャを使用してインストールします。

例えば、Ubuntuでは以下のコマンドを実行します。

sudo apt-get install ffmpeg

音声データの読み込み

pydubを使用して音声データを読み込むには、AudioSegmentクラスを使用します。

以下はmp3ファイルを読み込むサンプルコードです。

from pydub import AudioSegment
# mp3ファイルを読み込む
audio = AudioSegment.from_file("sample.mp3")

mp3形式での保存方法

音声データをmp3形式で保存するには、exportメソッドを使用します。

以下のサンプルコードでは、音声データをmp3形式で保存しています。

# mp3形式で保存する
audio.export("output.mp3", format="mp3")

保存時のオプション設定

音声データを保存する際には、いくつかのオプションを指定することができます。

ビットレートの指定

ビットレートを指定することで、音質とファイルサイズを調整できます。

以下のサンプルコードでは、ビットレートを128kbpsに設定しています。

audio.export("output.mp3", format="mp3", bitrate="128k")

チャンネル数の指定

チャンネル数を指定することで、モノラルやステレオの設定が可能です。

以下のサンプルコードでは、モノラルに設定しています。

audio.export("output_mono.mp3", format="mp3", parameters=["-ac", "1"])

サンプルレートの指定

サンプルレートを指定することで、音質を調整できます。

以下のサンプルコードでは、サンプルレートを44100Hzに設定しています。

audio.export("output_44100.mp3", format="mp3", parameters=["-ar", "44100"])

音声データの前処理

音声データを扱う際には、前処理が重要です。

前処理を行うことで、音声データの品質を向上させたり、特定の用途に合わせた編集が可能になります。

以下では、pydubを使用した音声データの前処理方法について解説します。

音声データのトリミング

音声データのトリミングは、特定の部分を切り取る作業です。

AudioSegmentクラスのスライス機能を使って、開始時間と終了時間を指定することでトリミングができます。

from pydub import AudioSegment
# 音声データを読み込む
audio = AudioSegment.from_file("sample.mp3")
# 10秒から20秒の部分をトリミング
trimmed_audio = audio[10000:20000]
# トリミングした音声を保存
trimmed_audio.export("trimmed_output.mp3", format="mp3")

音量の調整

音声データの音量を調整するには、+または-演算子を使用してデシベル(dB)単位で音量を変更します。

以下のサンプルコードでは、音量を5dB上げています。

# 音量を5dB上げる
louder_audio = audio + 5
# 音量を調整した音声を保存
louder_audio.export("louder_output.mp3", format="mp3")

フェードイン・フェードアウトの適用

音声データにフェードインやフェードアウトを適用することで、より滑らかな音声の開始や終了を実現できます。

fade_inメソッドとfade_outメソッドを使用します。

# フェードインを3秒、フェードアウトを3秒適用
faded_audio = audio.fade_in(3000).fade_out(3000)
# フェードを適用した音声を保存
faded_audio.export("faded_output.mp3", format="mp3")

音声の結合

複数の音声データを結合するには、+演算子を使用します。

以下のサンプルコードでは、2つの音声ファイルを結合しています。

# 2つの音声データを読み込む
audio1 = AudioSegment.from_file("sample1.mp3")
audio2 = AudioSegment.from_file("sample2.mp3")
# 音声データを結合
combined_audio = audio1 + audio2
# 結合した音声を保存
combined_audio.export("combined_output.mp3", format="mp3")

音声の分割

音声データを特定の時間で分割するには、スライス機能を使用します。

以下のサンプルコードでは、音声データを10秒ごとに分割しています。

# 音声データを10秒ごとに分割
segment_length = 10000  # 10秒
segments =  for i in range(0, len(audio), segment_length)]
# 分割した音声を保存
for index, segment in enumerate(segments):
    segment.export(f"segment_{index}.mp3", format="mp3")

これらの前処理を行うことで、音声データをより効果的に利用することができます。

他の音声フォーマットからmp3への変換

音声データはさまざまなフォーマットで保存されており、特定の用途に応じてmp3形式に変換することがよくあります。

pydubを使用すると、簡単に他の音声フォーマットからmp3形式に変換できます。

以下では、wav、flac、oggファイルからmp3への変換方法を解説します。

wavファイルからmp3への変換

wavファイルは非圧縮の音声フォーマットで、音質が高いですがファイルサイズが大きくなります。

pydubを使用してwavファイルをmp3形式に変換する方法は以下の通りです。

from pydub import AudioSegment
# wavファイルを読み込む
audio = AudioSegment.from_file("sample.wav", format="wav")
# mp3形式で保存する
audio.export("output.mp3", format="mp3")

flacファイルからmp3への変換

flacファイルは可逆圧縮の音声フォーマットで、音質を保ちながらファイルサイズを小さくできます。

flacファイルをmp3形式に変換する方法は以下の通りです。

from pydub import AudioSegment
# flacファイルを読み込む
audio = AudioSegment.from_file("sample.flac", format="flac")
# mp3形式で保存する
audio.export("output.mp3", format="mp3")

oggファイルからmp3への変換

oggファイルはオープンソースの音声フォーマットで、mp3と同様に圧縮されています。

oggファイルをmp3形式に変換する方法は以下の通りです。

from pydub import AudioSegment
# oggファイルを読み込む
audio = AudioSegment.from_file("sample.ogg", format="ogg")
# mp3形式で保存する
audio.export("output.mp3", format="mp3")

これらの方法を使用することで、さまざまな音声フォーマットからmp3形式に簡単に変換することができます。

音声データの形式を統一することで、管理や再生が容易になります。

応用例：音声データの加工と保存

音声データを加工することで、さまざまな効果を得ることができます。

pydubを使用して音声データにエフェクトをかけたり、ノイズを除去したり、速度やピッチを変更する方法について解説します。

音声データにエフェクトをかけて保存

音声データにエフェクトをかけることで、独自の音を作り出すことができます。

以下のサンプルコードでは、音声データにリバーブ効果をかけています。

from pydub import AudioSegment
from pydub.playback import play
# 音声データを読み込む
audio = AudioSegment.from_file("sample.mp3")
# リバーブ効果をかける(簡易的な実装)
reverb_audio = audio + 10  # 音量を上げることでリバーブ効果を模倣
# エフェクトをかけた音声を保存
reverb_audio.export("reverb_output.mp3", format="mp3")

音声データのノイズ除去と保存

音声データに含まれるノイズを除去することで、よりクリアな音声を得ることができます。

pydubでは、ノイズ除去のための直接的な機能はありませんが、音量を調整することでノイズを軽減することができます。

# 音声データを読み込む
audio = AudioSegment.from_file("sample_with_noise.mp3")
# 音量を下げてノイズを軽減
denoised_audio = audio - 5  # 音量を5dB下げる
# ノイズ除去した音声を保存
denoised_audio.export("denoised_output.mp3", format="mp3")

音声データの速度変更と保存

音声データの再生速度を変更することで、音声の印象を大きく変えることができます。

以下のサンプルコードでは、音声データの速度を1.5倍に変更しています。

# 音声データを読み込む
audio = AudioSegment.from_file("sample.mp3")
# 速度を1.5倍に変更
faster_audio = audio.speedup(playback_speed=1.5)
# 速度変更した音声を保存
faster_audio.export("faster_output.mp3", format="mp3")

音声データのピッチ変更と保存

音声データのピッチを変更することで、声の高さを変えることができます。

以下のサンプルコードでは、音声データのピッチを1オクターブ上げています。

# 音声データを読み込む
audio = AudioSegment.from_file("sample.mp3")
# ピッチを1オクターブ上げる
octave_up_audio = audio._spawn(audio.raw_data, overrides={"frame_rate": int(audio.frame_rate * 2)})
# ピッチ変更した音声を保存
octave_up_audio.export("octave_up_output.mp3", format="mp3")