Core Concepts
음성 신호 처리에서 푸리에 변환과 웨이블릿 변환은 중요한 신호 분해 방법이며, 이를 통해 음성 처리 기계 학습 모델의 복잡도를 낮출 수 있다.
Abstract
이 논문은 음성 신호 처리에서 가장 널리 사용되는 신호 분해 방법인 단시간 푸리에 변환(STFT)과 웨이블릿 변환(WT)을 소개하고 비교한다. 또한 음성 신호의 지각적 품질을 평가하는 지표들도 다룬다.
신호 분해 방법은 다음과 같은 특징을 가진다:
- STFT: 시간 영역에서 신호를 창 함수로 분할하고 각 구간에 대해 푸리에 변환을 수행한다. 창 함수의 크기와 중첩 정도에 따라 시간-주파수 해상도가 결정된다.
- WT: 모 웨이블릿 함수를 시간 축으로 이동 및 확대/축소하여 신호를 분해한다. 주파수 별로 다른 시간 해상도를 가지며, 고주파일수록 시간 해상도가 높다.
- 음성 신호 처리에서는 STFT가 가장 널리 사용되지만, WT도 잡음 제거나 압축 등의 문제에 적용되고 있다.
음성 신호의 지각적 품질을 평가하는 지표로는 다음과 같은 것들이 있다:
- Scale-Invariant Signal-to-Distortion Ratio (SI-SDR)
- Perceptual Evaluation of Speech Quality (PESQ)
- Short-Time Objective Intelligibility (STOI)
이러한 지표들은 기계 학습 모델의 성능 평가에 활용될 수 있다.
Stats
음성 신호의 주파수 범위는 다음과 같다:
모음: 100-120 Hz (남성), 200-240 Hz (여성), 300 Hz (어린이)
자음: 500 Hz - 4 kHz
Quotes
"음성 인식 작업은 일반적으로 인공 지능 및 기계 학습 모델을 사용하여 수행된다. 종단 간 모델이 존재하더라도 신호를 적절히 전처리하면 작업의 복잡도를 크게 줄이고 더 단순한 ML 모델과 적은 계산 자원으로 해결할 수 있다."
"ML 엔지니어들은 신호 처리 분야의 전문성이 부족한 경우가 많아 STFT를 가장 일반적이고 잘 알려진 옵션으로 선택하게 된다. 하지만 STFT도 하이퍼파라미터를 적절히 조정하지 않으면 성능이 저하될 수 있다."