AudioFlux是一个Python库,为音频和音乐分析以及特征提取提供深度学习工具。它图片各种时频分析转换方法,这些方法是在时域和频域中分析音频信号得技术。这些变换方法得一些示例包括短时傅里叶变换 (STFT)、常数 Q 变换 (CQT) 和小波变换。
除了时频分析变换外,AudioFlux还图片数百种相应得时域和频域特征组合。这些特征可用于表示音频信号得各种特征,例如其频谱内容、时间动态和节奏模式。这些特征专业从音频信号中提取,并用作深度学习网络得输入,用于分类、分离、音乐信息检索 (MIR) 任务和自动语音识别 (ASR)。
例如,在音乐分类中,AudioFlux专业从一段音乐中提取一组特征,例如其频谱质心,梅尔频率倒谱系数(MFCC)和过零率。然后,专业将这些特征用作深度学习网络得输入,该网络经过训练,可将音乐分类为不同得流派,例如摇滚,爵士或嘻哈。AudioFlux提供了一套全面得工具来分析和处理音频信号。对于研究和应用音频和音乐分析方法得可以人士和学者来说,这是一项必不可少得资产。
audioFlux 得主要功能包括变换Transform、功能Feature和 mir 模块。
Transform变换:audioFlux 中得“变换”功能使用变换算法(如 BFT、NSGT、CWT 和 PWT)提供各种时频表示。这些算法图片多种频率刻度类型,包括线性、梅尔、树皮、erb、倍频程和对数刻度频谱图。但是,某些变换(如 CQT、VQT、ST、FST、DWT、WPT 和 SWT)不图片多种频率标度类型,只能用作独立变换。AudioFlux 提供了有关每个转换得功能、描述和用法得详细文档。同步挤压或重新分配技术也可用于使用重新分配、synsq 和 wsst @算法锐化时频表示。用户专业参考文档以获取有关这些技术得更多信息。Feature功能:audioFlux 中得“功能”模块提供了多种算法,包括频谱、xxcc、deconv 和色度。频谱算法提供频谱功能并图片所有频谱类型。xxcc算法提供倒谱系数并图片所有频谱类型,而deconv算法提供频谱反卷积并图片所有频谱类型。最后,色度算法提供了色度特征,但它只图片 CQT 频谱,专业与基于 BFT 得线性或倍频程音阶一起使用。MIR: audioFlux 中得“MIR”模块包括多种算法,例如音高检测算法,如 YIN、STFT @。起始算法提供了频谱通量和新颖性@技术。最后,hpss算法提供了中值滤波和NMF技术。该库与多种操作系统兼容,包括Linux,macOS,Windows,iOS和Android.当将audioFlux得性能与其他音频库进行比较时,发现它是最快得,处理时间最短得。该测试使用每个 128 毫秒得样本数据(采样率为 32000,数据长度为 4096),并在各个库中比较了结果。下表显示了每个库提取 1000 个数据样本得特征所需得时间.
该软件包得文档专业在线找到:https://audioflux.top。
AudioFlux 对合作持开放态度,欢迎感兴趣得个人投稿。用户应首先分叉最新得 git 存储库并创建一个功能分支来做出贡献。所有提交必须通过持续集成测试。此外,AudioFlux 邀请用户提出改进建议,包括新算法、错误报告、功能请求、一般查询@。用户专业在项目页面上打开问题以启动这些讨论。