Audio Course - 加载数据集

两只鸽子

公告

这个网站是从2026年的情人节开始建立的，望周知

两只鸽子

公告

这个网站是从2026年的情人节开始建立的，望周知

标签

650 字

2 分钟

Audio Course - 加载数据集

2026-02-18

学习

深度学习

/

音频

使用Hugging face Datasets库#

使用hugging face datasets库可以很简单的加载数据集

1
from datasets import load_dataset
2

3
minds = load_dataset("PolyAI/minds14", name="en-AU", split="train")
4
#返回的minds是一个Dataset类，load_dataset()的第一个参数表示huggingface的数据集标识符
5
#name参数表示数据集子集的名称，split参数可以限制数据集，这里限制为训练集

使用print可以看到minds的各种属性

1
print(minds)

输出如下

1
Dataset({
2
    features: ['path', 'audio', 'transcription', 'english_transcription', 'intent_class', 'lang_id'],
3
    //数据集中每个数据所带的特征
4
    num_rows: 654
5
    //数据集的数据总数
6
})

datasets也提供了方法来移除某些特征

1
columns_to_remove = ["english_transcription", "lang_id"]
2
minds = minds.remove_columns(columns_to_remove)
3
#传入一个含有要移除参数的列表，这个函数不会修改原来的数据集，但是会返回一个新的数据集
4
#所以在这样操作的同时也把返回值赋给原来的数据集
5
print(minds)

输出如下

1
Dataset({
2
    features: ['path', 'audio', 'transcription', 'intent_class'],
3
    //可以看到，我们指定的特征被删去了
4
    num_rows: 654
5
})

通过Gradio，可以简单地创建一个demo来看看我们的音频，运行以下的代码还需要当前的环境中有安装ffmpeg

也许你可以在anaconda prompt里输入’ffmpeg’并看到有效的输出，但是这并不能说明当前的环境里有ffmpeg，你看到的输出可能来自系统path变量所指向的ffmpeg，为了查看虚拟环境中是否装有ffmpeg，需要用命令 ’conda list‘ 来查看。这一串文字存在的原因当然是作者刚刚没有发现这个问题而停滞了一会

1
from datasets import load_dataset
2
import gradio as gr
3
import torchcodec
4

5
minds = load_dataset("PolyAI/minds14", name="en-AU", split="train")
6

7
def generate_audio():
8
    example = minds.shuffle()[0]
9
    audio = example["audio"]
10
    return (audio["sampling_rate"], audio["array"]), example["intent_class"]
11
    #audio本身是含有音频信息的字典，audio["array"]则是numpy数组表示的频谱信息
12

13
with gr.Blocks() as demo:
14
    with gr.Column():
15
        for _ in range(4):
16
            audio, label = generate_audio()
17
            output = gr.Audio(audio, label=label)
18

19
demo.launch(debug=True)

实际上，我们也可以使用Hugging face datasets来加载本地数据集，这要求数据集的文件夹有如下的格式

1
my_dataset/
2
├── train/
3
│   ├── label1/
4
│   │   ├── audio1.wav
5
│   │   └── audio2.wav
6
│   └── label2/
7
│       ├── audio3.wav
8
│       └── audio4.wav
9
└── test/
10
    ...

只需指定load_dataset()的第一个参数为”audiofolder”，并传入参数data_dir即可，同时也可以指定split，来控制我们获得的是训练集还是别的什么

1
from datasets import load_dataset
2
import gradio as gr
3

4
minds = load_dataset("audiofolder", data_dir=".\my_dataset", split="train")
5
#如果要运行这段代码，还需要填上完整的路径
6

7
with gr.Blocks() as demo:
8
    with gr.Column():
9
        for i in range(4):
10
            example = minds[i]
11
            audio = example["audio"]
12
            sr = audio["sampling_rate"]
13
            array = audio["array"]
14
            output = gr.Audio((sr, array), label=f"Audio {i}")
15
            #gradio.Audio的第一个参数是包含采样率和频谱的元组
16

17
demo.launch(debug=True)

自行倾听是一个检查数据集的不赖选择，但我们同样可以选择画图

1
import librosa
2
import librosa.display
3
import matplotlib.pyplot as plt
4
import numpy as np
5
from datasets import load_dataset
6

7
minds = load_dataset("audiofolder", data_dir=".\my_dataset", split="train")
8
#路径同上
9
testArray, testSR = minds[0]["audio"]["array"], minds[0]["audio"]["sampling_rate"]
10
#有了采样率和振幅信息，我们就可以画出图像
11

12
plt.figure().set_figwidth(12)
13
librosa.display.waveshow(y= testArray, sr= testSR)
14
plt.show()

使用PyTorch加载数据#

Torch库中含有用于加载数据库的Dataset和Dataloader，由于显然不同的模型训练所用的数据不一定相同，我们需要实现自己的Dataset类，包括init, len, getitem方法

1
import numpy as np
2
from datasets import load_dataset
3
import gradio as gr
4
import torch
5
from torch.utils.data import DataLoader, Dataset
6
import torchaudio
7
import os
8

9
class AudioDataset(Dataset):
10
#要实现Dataset类，只需以torch中的Dataset类为父类来实现子类即可
11
    def __init__(self, data_dir:str, target_sample_rate=16000):
12
    #由于是音频数据集，除了文件路径之外
13
        supported_files = (".ogg", ".wav", ".mp3", ".flac")
14
        self.files = []
15
        files_in_dir = os.listdir(data_dir)
16
        for file in files_in_dir:
17
            if file.endswith(supported_files):
18
                self.files.append(os.path.join(data_dir, file))
19
        self.target_sr = target_sample_rate
20

21
    def __len__(self):
22
        return len(self.files)
23

24
    def __getitem__(self, index):
25
        filepath = self.files[index]
26
        waveform, sr = torchaudio.load(filepath)
27
        #torchaudio.load()接受一个音频的路径作为参数，返回一个音频序列和采样率
28

29
        if sr != self.target_sr:
30
        #由于数据集的采样率需要统一，所以需要对不同采样率的音频重采样
31
            resampler = torchaudio.transforms.Resample(sr, self.target_sr)
32
            waveform = resampler(waveform)
33

34
        return waveform, self.target_sr, #label
35
        #label在这里并没有实现
36

37
path = ".\\models\\Aru\\wav"
38
#同上，运行需要替换路径
39
My_audioDataset = AudioDataset(path)
40

41
with gr.Blocks() as demo:
42
    with gr.Column():
43
        for i in range(4):
44
            audio, sr, _ = My_audioDataset[i]
45
            output = gr.Audio((sr, audio.numpy().transpose()), label=f"Audio {i}")
46
            #可以注意到，这里进行了转置，理由的阐释放在下文里
47

48
demo.launch(debug=True)

可以发现在给gradio.Audio()传递参数的时候我们进行了一系列操作。由于由torchaudio.load()得到的返回值是一个张量，但是gradio.Audio()要求numpy数组，这两者在本质上几乎没有差别，所以可以对其使用.numpy()来转换为numpy数组同时，由torchaudio.load()得到的数组形式为(channels, time)，而gradio.Audio()要求的数组形式为(time, channels)，显然直接传入原来的数组是不行的，我们需要对其进行转置，由于这是二维数组，其转置与线性代数上的转置一致