PSOLA

PSOLA (Pitch Synchronous Overlap and Add; ピッチ同期重畳加算) は「ピッチに基づいた音声の分割・変換・再合成」をおこなう音声処理の枠組み[1]である。ピッチ同期波形重畳法[2]とも。

PSOLAを採用した音声処理ではスペクトル包絡/フォルマントを保ったまま音高や持続時間(テンポ)を変更できる。

PSOLAは次の3つの段階(分析・変換・再合成)からなる[3]

  1. 分析: 信号を短い区間の集合へ変換[4]区間長は可変、短時間でのピッチ同期Pitch-Synchronous)[5]
  2. 変換: 区間ごとあるいは区間単位で操作
  3. 再合成: 重畳加算OverLap-Add)

分析では、対象の音声波形がもつ周期(ピッチ)と同期した分析窓を用い[6]、互いにオーバーラップした短い断片/区間(基本周期の2倍程度[6])に分割する。

変換例として、信号のピッチを下げるには断片を互いに遠ざけ、ピッチを上げるには互いに近付けて断片を再配置する。断片を離す/重ねる結果として信号長/持続時間が変化するため、次の補正を行う[6]。信号の持続時間を長くするには 引き続き同じ断片を複数回繰り返し、短くするには いずれかの断片を間引きする。

変換された断片は重畳加算法 (英語: overlap-add) で結合され信号が再合成される。

PSOLAを採用しかつ操作が時間領域でおこなわれるアルゴリズムはTD-PSOLAと総称され、また周波数領域でおこなわれるアルゴリズムはFD-PSOLAと総称される[7]

PSOLAは音声信号の韻律 (英語: prosody) の変更に使用できる。

関連項目

参考文献

  • Eric Moulines; Francis Charpentier (December 1990), “Pitch-synchronous waveform processing techniques for text-to-speech synthesis using diphones”, Speech Communication 9: 453–467, doi:10.1016/0167-6393(90)90021-Z 
  • Eric Moulines; Jean Laroche (February 1995), “Non-parametric techniques for pitch-scale and time-scale modification of speech”, Speech Communication 16 (2), doi:10.1016/0167-6393(94)00054-E 
  1. ^ 特定のアルゴリズムではなく、流れ・型である。 "a pitch-synchronous overlap-add (PSOLA) approach ... we first present the common PSOLA framework" MOULINES, et al. (1990).
  2. ^ 板橋秀一 (2005), 音声工学, 森北出版, p. 169, ISBN 9784627828117 
  3. ^ "The PSOLA synthesis scheme involves the three following steps: an analysis of the original speech waveform ... modifications brought to this intermediate representation ... the synthesis of the modified signal from the modified intermediate representation" MOULINES, et al. (1990). PITCH-SYNCHRONOUS WAVEFORM PROCESSING TECHNIQUES FOR TEXT-TO-SPEECH SYNTHESIS USING DIPHONES.
  4. ^ "consists of a sequence of short-term signals xm(n)" MOULINES, et al. (1990).
  5. ^ "at a pitch-synchronous rate on the voiced portions of the signal and at a constant rate on the unvoiced portions." MOULINES, et al. (1990).
  6. ^ a b c R. Kortekaas; A. Kohlrausch (1997), “Psychoacoustical Evaluation of the Pitch-Synchronous Overlap-and-Add Speech-Waveform Manipulation Technique Using Single-Formant Stimuli”, Journal of the Acoustical Society of America (JASA) 101 (4): 2202–2213, http://alexandria.tue.nl/repository/freearticles/622042.pdf 
  7. ^ "The modifications of the speech signal are performed either in the frequency domain (FD-PSOLA) ... or directly in the time domain (TD-PSOLA)" MOULINES, et al. (1990).

外部リンク

  • Changing Pitch with PSOLA for Voice Conversion (英語)
  • A thesis that discusses PSOLA with diagrams (PDF, 英語); 35ページ参照(PDF上の44ページ目)
モデル / 手法
エンジン
商用
  • AquesTalk
  • AITalk
  • ReadSpeaker
  • FineSpeech
  • RECAIUS
  • RubyTalk
  • VoiceOperator
  • CereProc(英語版)
  • IVONA(英語版)
  • Microsoft text-to-speech voices(英語版)
  • PlainTalk(英語版)
  • Syllaflow
  • Seiren Voice
フリー
  • eSpeak(英語版)
  • Gnuspeech(英語版)
  • Festival Speech Synthesis System(英語版)
  • Open JTalk
非OSS
  • MBROLA(英語版)
システム / API
商 用
フリー
  • FreeTTS(英語版)
ハードウェア
歴史的
  • DECtalk(英語版)
  • Pattern playback(英語版)
  • The Voder(英語版)
  • Wolfgang von Kempelen's speaking machine(英語版)
LSI
  • GI SP0256(英語版)
  • TI LPC Speech Chips(英語版)
娯楽
応用ソフトウェア
商用
  • VOICEROID
  • CeVIO
  • Megpoid Talk
  • A.I.VOICE
  • ボイスソムリエ
  • AOLbyPhone(英語版)
  • DialogOS(英語版)
  • Dr. Sbaitso(英語版)
  • Microsoft Agent(英語版)
  • Microsoft Narrator(英語版)
  • Voice font(英語版)
  • VOICEPEAK
フリー
サイト
アクセシビリティ
  • RIAS(英語版)
  • Silent speech interface(英語版)
  • Speech-generating device(英語版)
  • Spoken Web(英語版)
  • TuVox(英語版)
スクリーン
リーダー
(リスト)
商用
フリー
ハード
Self-voicing
商用
  • WordQ+SpeakQ(英語版)
フリー
  • Emacspeak(英語版)
音声ブラウザ
商用
ブラウザ拡張
フリー
  • Fire Vox(英語版)
  • Text to Voice(英語版)
サイト拡張
商用
  • BrowseAloud(英語版)
  • Readspeaker(英語版)
ボーカルシンセ
商用
フリー
シェア
非OSS
  • MBROLA(英語版)
ハード
応用
  • ぼかりす
サイト
サービス・サイト
  • Odiogo(英語版)
  • Quack.com(英語版)
プロトコル
開発者・研究者
  • Catherine Browman(英語版)
  • Franklin Seaney Cooper(英語版)
  • Gunnar Fant(英語版)
  • Haskins Laboratories(英語版)
  • ヴォルフガング・フォン・ケンペレン
  • Ignatius Mattingly(英語版)
  • Philip Rubin(英語版)
  • CereProc(英語版)
  • IVONA(英語版)
  • VoiceWeb(英語版)
  • ヤマハ
関連分野
カテゴリ カテゴリ