2017-04

スポンサーサイト

このエントリーをはてなブックマークに追加
上記の広告は1ヶ月以上更新のないブログに表示されています。
新しい記事を書く事で広告が消せます。

YouTubeの日本語自動音声認識されたニュース動画と将棋動画を比較してみた

このエントリーをはてなブックマークに追加
以下の記事は書いた当時の話で現在は日本語の自動字幕付与自体が使えなくなっているようです。




以前、YouTubeでゆっくりボイス(AquesTalk) にBGM付きの動画で字幕ファイルを自作したらどの程度、正確に自動でタイムコードを振ってくれるか検証したエントリを書きました。

その後、YouTubeで日本語の自動音声認識に対応したとのアナウンスがされました。既存の動画も順次、自動音声認識で字幕が振られるみたいですが、よくみられている動画から優先して字幕が振られるようです。

というわけで、一例ですがセシウム汚染牛に関するニュースを貼ってみます。アナウンサーと、会見やインタビューの場面で音声認識率が大きく違うのがわかると思います。これは滑舌うんぬんではなく雑踏や環境ノイズなどの録音環境が大きく影響していると考えられます。





そこで将棋動画での自動音声認識はどうかというと、やはりHIDETCHIさんの動画が多く見られていて日本語の自動音声認識がされていたということで、そこから紹介したいと思います。今回は日本語の自動音声認識の精度を見たいということで将棋で英語#6の棋譜表記の動画を貼ってみたいと思います。なぜ、これを選んだかというと将棋特有の言い回しが多く含まれるからです。





ご覧のとおり、将棋特有の言い回しのあたりは全滅です。「5五金」が「合金」とか「公金」とか認識されています。

ただ、この動画を観察することで興味深いことも見えてきます。

3:48 あたりで「えーと」を "eight" (8) と誤認識していることから、しゃべられている言語を特定してから認識処理をしているのではなく、文節毎に日本語と英語の文法で同時認識していると考えられます。同様の例は5:00 あたりの「このレフトワード」を"connectport" と誤認識していることや8:23 の「チェス」が"this"や"jis"に誤認識されていることからも伺えます。10:37 では文の途中の"five"がちゃんと"5"と認識されていることから文頭ではなく文中も英語の音声認識が走っているのではと推測されます。

現状は英語と日本語だけなのでこのやり方が通用するのだろうと考えられますが、もっと多言語化(例えばEU圏の言語+中国語、韓国語など)した時にこの処理が破綻しないかどうかは微妙な気もします。

YouTubeの公式ブログでもアナウンスされている通り、自動音声認識はニュース音声で威力を最も発揮すると書かれていて実際その通りなのですが、上で貼ったセシウム汚染牛のニュースでは数字を間違えるという致命的なミスもしているので、正確に字幕を振りたいという人はやはり字幕部分は手で書いた方がいいでしょう。

前の検証エントリでも書いたように、将棋に限らず各分野に固有の表現も自力でカバー出来ます。ただこの場合も、自動翻訳についてはあまり期待できないので、やはり質を担保するならば手動翻訳ということになってしまうでしょうか。

関連記事
スポンサーサイト

コメント

コメントの投稿


管理者にだけ表示を許可する

トラックバック

http://fantakeshi.blog50.fc2.com/tb.php/48-31dae39d
この記事にトラックバックする(FC2ブログユーザー)

«  | ホーム |  »

プロフィール

fantakeshi

Author:fantakeshi
Web:ここ
Twitter ID:fantakeshi
自作物やプログラムやまとまった技術的メモについて

RSSに追加

自作物

最新記事

Twitter

最新コメント

最新トラックバック

月別アーカイブ

カテゴリ

自作物 (26)
一般 (1)
将棋 (12)
BONANZA (1)
ponanza (1)
HTML5 (2)
Chrome (1)
WebAPI (1)
Webサイト (2)
プログラム (2)
Tips (1)

カウンター

検索フォーム

RSSリンクの表示

リンク

このブログをリンクに追加する

上記広告は1ヶ月以上更新のないブログに表示されています。新しい記事を書くことで広告を消せます。