SLP 105 - マイナス×マイナス

　さて，第105回　音声言語情報処理研究会，こと，温泉研究会に行ってきました．

aito 先生がいなかったため，代わりに私めが内容をまとめてみようという試みです．無謀に近いですね

SIG-SLP 105 2月27日（金）～28日（土）

2月27日(金)
■音声合成(14:00-15:15 )
（1）統計的パラメトリック音声合成のための変調スペクトルを考慮した音声パラメータ生成アルゴリズム
　　　高道慎之介，戸田智基，ブラックアラン，中村哲 (NAIST, CMU)

　言わずと知れたHTSや，戸田先生のGlobal Variance は話者変換とかできてとても良いのだけれど，スペクトルの過剰な平滑化が問題となる．それを防ぐために変調スペクトルを考慮しました，という研究です．数学的にきれいになり，GVを超える性能が出ていて素晴らしかったです．

　聴衆からは，実験結果はとてもポジティブなのにABテストで4割の誤りがあるのはなぜ？などの反応があったと思う．（峰松先生かな）

　個人的にもノンパラメトリックな私の無名論文のほうが実際の信号（スペクトルではない）に近づいていたので統計ベースパラメトリックというアプローチの限界を少しだけ感じるのでした．

（2）Deep Neural Networkに基づく音響特徴量・音響モデルを用いた統一的音声合成システム

　　　高木信二，山岸順一（NII）

　 DNNで言語情報（Linguistic Feature:この辺りは聞き逃してしまった）から，スペクトルへの復元を行おうという野心的な研究．スペクトルへの復元にはDAEのボトルネック層から上の部分を使います．ここでのDAEは P.Vincent のDAE．⊿パラメータを使うことや，フレームバイフレームなのでRNNをつかうなりの平滑化が必要かもというような議論になりました．

　個人的にはDDAEのボトルネック層を，Bengioのグループがやっているようにスペクトルに復元する層を上の方にもっていったらいいのでは？などと思いました．

（3）韻律・音韻が部分修正に基づく話者性を保持した日本寺院英語音声合成と英語習熟度が与える影響
　　　大島悠司，高道慎之介，戸田智基，Sakriani Sakti，Graham Neubig，中村哲 (NAIST)

　クロスリンガル音声合成．CALLシステムの矯正用信号等の作成を試みるもの．先行研究に加え，無声子音部には話者性が乗っていないのでそこをそのまま母語話者音声の発話と入れ替えてしまおうという研究（やや強引？）

　see が she に聞こえるような気がする（これも峰松先生）という議論になりました．

■信号処理・耐雑音(15:30-16:45)
（4）連想記憶と線形分離フィルタを用いたブラインド音源音源分離
　　　大町基，小川哲司，小林哲則，藤枝大，片桐一浩（早大、沖電気）

　ブラインド信号源分離に使われる線形フィルタを，DNNで非線形的に推定しましょうという研究（だったはず）．普通のブラインド信号源分離ではとくに音声らしさを扱っていないので，そのあたりをDNNをで学習しようよという感じですかね．しかし，知識不足であまり理解していません．

　ブラインド信号源分離は独立性を仮定するが，残響がある場合等にはその過程が出来ない，とのことです．でもこの手法の利点は，もっとあるような気もする．DNNの音声認識器は信号の変化に過敏に反応するし．

（5） Waveletを用いた特徴量抽出法とその高精度化手法の評価
　　　松井清彰，能勢隆，伊藤彰則（東北大）

　特徴量計算の計算量をどこまで減らせるのかという研究です．リソースが限られている環境での使用を前提としています．Raspberry PI を使用．FFT(O(n log n)) からウェーブレット変換 (O(n))にかえれば良いという発表．確かに早そう．しかし，シフト演算で 1/2 を計算することにこだわって，周波数分解能を上げるためにダウンサンプリングしていたり少しもやっとしました．浮動小数点（か固定小数点）演算で 2/3 倍のウェーブレットを計算したり，FFT専用のチップを載せたりしたほうが早かったりしないかな？と疑問でした．

（6）残響除去手法トシステム統合手法の種々の残響環境に対する有効性：REVERBチャレンジ
　　　太刀岡勇気，成田知宏，渡部晋治（MERL）

　REVERBチャレンジで1位になった三菱の研究チームの発表．

　ＨLDAなどによる複数コンテキストの圧縮，GMM,SGMM,DNNをROVERで良いとこどりする．残響除去には，SSを利用．残響環境下認識では，左コンテキストよりは右コンテキストの方が重要とのこと．あまり新しい要素は無いが網羅的に研究されていておもしろかった．しかし，RTFはどうなるんだろう，これ．

■国際学会報告(17:00～18:00)
（7）国際会議INTERSPEECH2014，SLT2014参加報告
　　　浅見太一，岩野公司，小川哲司，駒谷和範，齋藤大輔，篠田浩一，太刀岡勇気，東中竜一郎，福田隆，増村亮，渡部晋治

　今回のメイン企画．とてもまとめられるほどの実力が無いのと，時間が掛かりそうなので割愛．INTERSPEECHとSLTの興味深い論文の紹介でした．LSTM，RNN-LMがやはり強いですね．

■[企画：若手座談会](20:30～21:30)

　博論の修正依頼が入ったため参加できず．

2月28日(土)
■翻訳・マルチモーダル(9:00-10:15)
（8）講義音声の前処理と2段階翻訳に基づく日英音声翻訳
　　　川口亮，山本一公，中川聖一（豊橋技科大）

　同じく博論の修正であまり聞いていません．

　二段階で翻訳するけど，そもそもBLUE値がひくすぎるのではという指摘有り．はじめから，RIBESでやれば良さそう．

（9）ポスター会話における音響・視線情報を統合した話者区間及び相槌の検出
　　　井上昂治，若林佑幸，吉本廣雅，高梨克也，河原達也（京大）

　いわゆる，スマートポスターの研究．上記と同じ理由であまり聞けなかった．

　しかし，こういうシステムは，私はとても好きですね．

（10）ユーザの対話意欲自動推定を目標とした対話データの分析と音声画像特徴量の検討
　　　千葉祐弥，能勢隆，伊藤彰則（東北大）

　非タスク思考型の対話（雑談）等をターゲットにして，システムから積極的に質問していくことによって，ユーザの知識を得ようと言うもの．

　人間同士の対話を例に模擬実験．対話の参加者の楽しかった，という評価と後から動画を見ている人の評価が概ね一致するということで，何らかの手法で，対話の「楽しさ」を取り出せえそういうもの．中川先生から，感情声分析はもっと大きなパラメータを使うのが一般的という指摘が有りました．

■話者クラスタリング・対話・応用(10:30-11:45)
（11）i-vector を用いたスペクトラルクラスタリングによる雑音環境下話者クラスタリング
　　　俵直弘，小川哲司，小林哲則（早大）

　同じく博論の修正のため聞けなかった．

（12）擬態語・擬音語音声入力を用いたLINE風スタンプ描画システムの動作分析
　　　雨宮香織，相川清明（東京工科大）

　同上．．．

（13) 英会話学習システムにおける応答タイミング練習方法の有効性の検証
　　　鈴木直人，廣井富，藤原祐磨，千葉祐弥，能勢隆，伊藤彰則（東北大）

　残念ながら，同上らしくメモできず．

博士論文の修正し過ぎだろう私．

以上でした．