マイナス×マイナス

メンヘラ人工知能エンジニアのブログ/ 博士(工学)

SLP 105

 さて,第105回 音声言語情報処理研究会,こと,温泉研究会に行ってきました.

aito 先生がいなかったため,代わりに私めが内容をまとめてみようという試みです.無謀に近いですね

 

SIG-SLP 105  2月27日(金)~28日(土)


2月27日(金)
音声合成(14:00-15:15 )
(1) 統計的パラメトリック音声合成のための変調スペクトルを考慮した音声パラメータ生成アルゴリズム
   高道 慎之介,戸田 智基,ブラック アラン,中村 哲  (NAIST, CMU)

  言わずと知れたHTSや,戸田先生のGlobal Variance は話者変換とかできてとても良いのだけれど,スペクトルの過剰な平滑化が問題となる.それを防ぐために変調スペクトルを考慮しました,という研究で す.数学的にきれいになり,GVを超える性能が出ていて素晴らしかったです.

 聴衆からは,実験結果はとてもポジティブなのにABテストで4割の誤りがあるのはなぜ?などの反応があったと思う.(峰松先生かな)

 個人的にもノンパラメトリックな私の無名論文のほうが実際の信号(スペクトルではない)に近づいていたので統計ベースパラメトリックというアプローチの限界を少しだけ感じるのでした.

 

(2)Deep Neural Networkに基づく音響特徴量・音響モデルを用いた統一的音声合成システム

   高木 信二,山岸 順一(NII)

  DNNで言語情報(Linguistic Feature:この辺りは聞き逃してしまった)から,スペクトルへの復元を行おうという野心的な研究.スペクトルへの復元にはDAEボトルネック層か ら上の部分を使います.ここでのDAEは P.Vincent のDAE.⊿パラメータを使うことや,フレームバイフレームなのでRNNをつかうなりの平滑化が必要かもというような議論になりました.

 個人的にはDDAEのボトルネック層を,Bengioのグループがやっているようにスペクトルに復元する層を上の方にもっていったらいいのでは?などと思いました.


(3) 韻律・音韻が部分修正に基づく話者性を保持した日本寺院英語音声合成と英語習熟度が与える影響
   大島 悠司,高道 慎之介,戸田 智基,Sakriani Sakti,Graham Neubig,中村 哲 (NAIST)

 クロスリンガル音声合成.CALLシステムの矯正用信号等の作成を試みるもの.先行研究に加え,無声子音部には話者性が乗っていないのでそこをそのまま母語話者音声の発話と入れ替えてしまおうという研究(やや強引?)

 see が she に聞こえるような気がする(これも峰松先生)という議論になりました.


■信号処理・耐雑音(15:30-16:45)
(4)連想記憶と線形分離フィルタを用いたブラインド音源音源分離
   大町 基,小川 哲司,小林 哲則,藤枝 大,片桐 一浩(早大沖電気

  ブラインド信号源分離に使われる線形フィルタを,DNNで非線形的に推定しましょうという研究(だったはず).普通のブラインド信号源分離ではとくに音声 らしさを扱っていないので,そのあたりをDNNをで学習しようよという感じですかね.しかし,知識不足であまり理解していません.

 ブラインド信号源分離は独立性を仮定するが,残響がある場合等にはその過程が出来ない,とのことです.でもこの手法の利点は,もっとあるような気もする.DNNの音声認識器は信号の変化に過敏に反応するし.


(5) Waveletを用いた特徴量抽出法とその高精度化手法の評価
   松井 清彰,能勢 隆,伊藤 彰則(東北大)

  特徴量計算の計算量をどこまで減らせるのかという研究です.リソースが限られている環境での使用を前提としています.Raspberry PI を使用.FFT(O(n log n)) からウェーブレット変換 (O(n))にかえれば良いという発表.確かに早そう.しかし,シフト演算で 1/2 を計算することにこだわって,周波数分解能を上げるためにダウンサンプリングしていたり少しもやっとしました.浮動小数点(か固定小数点)演算で 2/3 倍のウェーブレットを計算したり,FFT専用のチップを載せたりしたほうが早かったりしないかな?と疑問でした.


(6)残響除去手法トシステム統合手法の種々の残響環境に対する有効性:REVERBチャレンジ
   太刀岡 勇気,成田 知宏,渡部 晋治(MERL)

 REVERBチャレンジで1位になった三菱の研究チームの発表.

 HLDAなどによる複数コンテキストの圧縮,GMM,SGMM,DNNをROVERで良いとこどりする.残響除去には,SSを利用.残響環境下認識では,左コン テキストよりは右コンテキストの方が重要とのこと.あまり新しい要素は無いが網羅的に研究されていておもしろかった.しかし,RTFはどうなるんだろう, これ.


■国際学会報告(17:00~18:00)
(7) 国際会議INTERSPEECH2014,SLT2014参加報告
   浅見 太一,岩野 公司,小川 哲司,駒谷 和範,齋藤 大輔,篠田 浩一,太刀岡 勇気,東中 竜一郎,福田 隆,増村 亮,渡部 晋治

 今回のメイン企画.とてもまとめられるほどの実力が無いのと,時間が掛かりそうなので割愛.INTERSPEECHとSLTの興味深い論文の紹介でした.LSTM,RNN-LMがやはり強いですね.


■[企画:若手座談会](20:30~21:30)

 博論の修正依頼が入ったため参加できず.


2月28日(土)
■翻訳・マルチモーダル(9:00-10:15)
(8)講義音声の前処理と2段階翻訳に基づく日英音声翻訳
   川口 亮,山本 一公,中川 聖一(豊橋技科大)

 同じく博論の修正であまり聞いていません.

 二段階で翻訳するけど,そもそもBLUE値がひくすぎるのではという指摘有り.はじめから,RIBESでやれば良さそう.


(9)ポスター会話における音響・視線情報を統合した話者区間及び相槌の検出
   井上 昂治,若林 佑幸,吉本 廣雅,高梨 克也,河原 達也(京大)

 いわゆる,スマートポスターの研究.上記と同じ理由であまり聞けなかった.

 しかし,こういうシステムは,私はとても好きですね.


(10)ユーザの対話意欲自動推定を目標とした対話データの分析と音声画像特徴量の検討
   千葉 祐弥,能勢 隆,伊藤 彰則(東北大)

 非タスク思考型の対話(雑談)等をターゲットにして,システムから積極的に質問していくことによって,ユーザの知識を得ようと言うもの.

  人間同士の対話を例に模擬実験.対話の参加者の楽しかった,という評価と後から動画を見ている人の評価が概ね一致するということで,何らかの手法で,対話 の「楽しさ」を取り出せえそういうもの.中川先生から,感情声分析はもっと大きなパラメータを使うのが一般的という指摘が有りました.


■話者クラスタリング・対話・応用(10:30-11:45)
(11)i-vector を用いたスペクトラルクラスタリングによる雑音環境下話者クラスタリング
   俵 直弘,小川 哲司,小林 哲則(早大

 同じく博論の修正のため聞けなかった.


(12)擬態語・擬音語音声入力を用いたLINE風スタンプ描画システムの動作分析
   雨宮 香織,相川 清明(東京工科大)

 同上...


(13) 英会話学習システムにおける応答タイミング練習方法の有効性の検証
   鈴木 直人,廣井 富,藤原 祐磨,千葉 祐弥,能勢 隆,伊藤 彰則(東北大)

  残念ながら,同上らしくメモできず.

 

博士論文の修正し過ぎだろう私.

以上でした.