アドバンスト・メディア
アルゴリズム
エネルギー
エネルギー貯蔵
オペレーターズサイド
カーナビ
キーボード (コンピュータ)
グラフィック
ケプストラム
ケモインフォマティクス
コンピュータ
コンピューティング
コールセンター
システム工学
シーマン
ソフトウェア工学
テクノロジー
ナノテクノロジー
バイオインフォマティクス
バイオテクノロジー
バイオリアクター
パターン認識
パーソナルコンピュータ
ヒト
ピカチュウげんきでちゅう
フーリエ変換
マイクロソフト
マルコフ連鎖
メインページ
メカトロニクス
モータービークル
レコーディング・エンジニア
ロボット工学
交通
交通工学
人工知能
低温物理学
体系学
健康
光コンピューティング
再生医学
制御工学
動物学
化学工学
医用生体工学
医療技術
協定世界時
原子力工学
口述筆記
同時通訳
土木工学
大玉 (ゲーム)
宇宙技術
安全工学
安全性
定常過程
家庭
工兵
工学
建設
弾薬
応用科学
情報
情報技術
情報通信技術
教育工学
文脈自由文法
時系列
栄養学
機動戦士ガンダム 戦場の絆
機械
機械工学
機械翻訳
正規分布
水理学
水産学
水産業
海洋工学
爆弾
物質科学
環境工学
生体工学
生物工学
生産技術
産業
発音
白物家電
素粒子物理学
考古学
自動車工学
自動通訳
自動音声応答装置
自然言語処理
航空宇宙工学
船舶工学
薬理学
製造業
計算機工学
話者認識
軍事
音声認識(おんせいにんしき, speech recognition)は、ヒトの話す音声言語をコンピュータによって解析し、話している内容を文字データとして取り出す処理のこと。キーボードからの入力に代わる文字入力方法として注目を集めている。 音声認識に関連が深い技術として、あらかじめ記録しておいた音声パターンと比較して個人認証等をおこなう、話者認識がある。 パソコンの場合、文章を入力する用途では音声入力またはディクテーション、アプリケーションの操作は音声操作と呼ばれる。 目次 1 認識技術 1.1 統計的手法 1.2 動的時間伸縮法 1.3 隠れマルコフモデル 2 実際と課題 2.1 性能 3 研究中の技術 3.1 MFT 3.2 GSS 4 実用例 4.1 Windowsにおける利用 4.2 企業・団体における利用 4.3 その他の利用例 4.4 その他の応用例 5 音声認識ソフトウェア例 5.1 音声認識を応用したゲームソフト例 6 参考文献 7 外部リンク 8 出典 9 関連項目 編集 認識技術 編集 統計的手法 音声認識では、統計的手法が良く用いられている。これは大量の発話を記録した学習用データから音声の特徴を蓄積し、入力された音声信号と蓄積された特徴とを比較しながら、最も特徴に近い言語系列を認識結果として出力する手法である。 一般に、音声の音響的な特徴と言語的な特徴を分離して扱うことが多い。音響的な特徴とは、認識対象の音素がそれぞれどのような周波数特性を持っているかを表したもので、音響モデルと呼ばれる。音響モデルの表現としては、混合正規分布を出力確率とした隠れマルコフモデルが広く用いられている。言語的な特徴とは、音素の並び方に関する制約を表したもので、言語モデルと呼ばれる。例えば、「あなた (a n a t a)」という発声の直後には、「が (g a)」や「は (w a)」などの発声が続く確率が高い、などの制約である。言語モデルの表現としては、認識対象の言語が大規模な場合(パソコン上での文書作成など)はn-gramが良く用いられ、認識対象の言語が人手で網羅出来る程度に小さい場合(カーナビの音声操作など)は、文脈自由文法が良く用いられる。 編集 動的時間伸縮法 動的時間伸縮法(Dynamic time warping、DTW)は初期の音声認識手法であるが、隠れマルコフモデルに基づく手法が一般化したため、使われなくなった。時間または早さの異なる2つの信号シーケンスの間の類似度を測るアルゴリズムである。例えば、人間の歩行のパターンは、素早く歩いても、ゆっくり歩いても、さらには歩行の画像を早送りしてもスロー再生しても一定のパターンが存在する。DTW は音声だけでなく動画などの任意の時系列のデータに適用可能である。音声認識においては、発声速度がどうであっても一定のパターンを検出するために使われていた。従って、比較のための標準パターンが必要であり、認識できる語彙は限定される。 編集 隠れマルコフモデル 音声信号は、断片的あるいは短時間の定常信号と見ることができ、隠れマルコフモデル(Hidden Markov Model、HMM)が適用可能である。すなわち、10ミリ秒程度の短時間でみた場合、音声信号は近似的に定常過程と見なすことができる。従って、音声を多くの確率過程のマルコフ連鎖と考えることができる。 また、隠れマルコフモデルによる音声認識は自動的にトレーニングされ、単純で計算量もそれほど多くない。音声認識について考えられる最も簡単な設定では、隠れマルコフモデルは10ミリ秒ごとに例えば13次元程度の実数値ベクトルを出力するだろう。このベクトルはケプストラム係数から成る。ケプストラム係数は短時間の信号のフーリエ変換にコサイン変換を使って、その第一(最大)係数を取り出したものである。隠れマルコフモデルは、それぞれの観測されたベクトルの尤度を与える対角共分散のガウス分布の混合ともいうべき確率分布を持つ傾向がある。各単語や各音素はそれぞれ独自の出力分布を持つ。単語列あるいは音素列に関する隠れマルコフモデルは、個々の単語や音素の隠れマルコフモデルを連結したものとなる。 これらが隠れマルコフモデルを使用した音声認識技術の概念である。音声認識システムにはこれ以外にも様々な技術を使用している。語彙の多いシステムでは、音素について文脈依存性を考慮する。また、話者間の違いや録音状況の違いを正規化するために、ケプストラムの正規化が行われる。他にも話者正規化の試みとして、男女間の正規化のための声道長正規化 (VTLN) や、より不特定多数の話者に対応するための最尤線形回帰 (MLLR) がある。 編集 実際と課題 音声認識システムの研究開発にはコンピュータが普及しだした1970年代から21世紀初頭の現在まで、長年にわたって莫大な資金と優秀な人材が投入されてきたが、成功して普及したものはほとんどなく、デジタル技術によって生み出された3次元映像に代表されるアニメーション映画や、動画、静止画、音楽の記録と再生といった技術分野は、その後、大きな産業となっているのと比べれば大きな違いがある[1]。 話者を限定して、「ディクテーション」と呼ばれる事前のトレーニングを行う方式の音声認識システムでは、日本語では理想的な環境下では80%の認識率が達成できるとされている。それらのトレーニングを積まない場合60%が限度である[2]。語彙を限定してトレーニングを必要としないシステムでは、不特定多数の話者の音声を認識できるが語彙が少ないために利用範囲は限定される。 同音異義語が少ない欧米系の言語では90%の認識率があると評価されている[3] 。 個人向けに市販されている音声認識ソフトでは、静かな部屋でユーザーがヘッドセットを使い、単語を区切るなどのいくつかのコツを知っていれば十分実用的な認識率を示す。ただし屋内であっても背後で大声の会話がなされる環境や、屋外などの騒音のある環境では認識が困難である。また、個人のレベルで使用することを想定しているため、対応する語彙が限られ業務用語はカバーされていない。さらに、複数の話者による発声や、音声認識向けと意識していない、例えばインタビューや会議などの発声を認識するのは困難である。 企業向けでは、大規模語彙と複数の不特定話者に対応した会議などの議事録作りに使えるより高価なソフトも販売されており要出典、カセットテープやICレコーダの聞き起こしに比べ効率的に作業を行うことができる。 編集 性能 音声認識システムの性能は一般に正確度と速度で表される。正確度は単語誤り率 (word error rate, WER) で表され、速度は実時間係数 (real time factor, RTF)で表される。 編集 研究中の技術 編集 MFT 話者の音声の特徴量が雑音や特徴分離処理によって歪むと音響モデルとの差が開いて誤認識の元となる。得られた音声の特徴量に歪みや雑音がどの程度含まれているかを推定し時間軸と周波数軸に対して信頼度をマップとして持たせて、低信頼度の特徴量にはマスクをかけたり、失われた音声を復元する処理に活用するのがミッシング・フィチャー理論(Missing feature theory) である[1]。 編集 GSS GSS(Geometric source separation)は複数の音源を分離する技術であり、音源間に相関が無ければ複数のマイクからの入力情報によって比較的簡単に音源分離とその位置情報(音源定位)が得られる。これをMFTの雑音情報として信頼度マップに反映させれば、騒音下や同時発話の状況でもそれほど認識率を落とさずに済む[1]。 編集 実用例 編集 Windowsにおける利用 Windows VistaとWindows 7では音声認識機能が搭載されており、この機能を使用して、キーボード入力なしにチャットをするなどの操作が可能となっている。音声認識機能でパソコンを操作するといった利用方法はこれまでにもあったが、日本語の認識率を向上させているほか、マウスやキーボードで行うWindowsの操作が音声で操作できるようになっている。 編集 企業・団体における利用 企業、病院、自治体では、2005-6年頃から次第に次のような実用システムの導入が活発化してきている。 医師向け電子カルテ入力システム 自治体向け議事録作成支援システム コールセンター向けオペレータ支援・通話内容分析システム 学校向け語学学習アプリケーションでの発音評価システム 編集 その他の利用例 携帯端末(iPhoneなど)へのメール文章入力 同時通訳型の機械翻訳、自動通訳 パソコン上での文書作成(口述筆記の自動化) 音声指示による機械操作(カーナビ、電子カルテ等のハンズフリーコンピューティング) 指示を聞き分けるペットロボット(ロボット工学への応用) 音声対話受付案内システム(自動音声応答装置) 裁判員制度での評議における証言内容などの確認(映像と文字の連動) 音声Webアプリケーション w3voice Laboratory (音声認識や対話を体験できるWebサイト) 編集 その他の応用例 「感性制御技術」(Sensibility Technology=ST)などと組み合わせることにより、例えば「ごめんなさい」も口先だけで軽く言った「ごめんなさい」も同じ「ごめんなさい」でしかないが、早口で軽いトーンの「ごめんなさい」は、バカにしていると判断して怒った態度で接したり、ゆっくり丁寧に発音された「ごめんなさい」は、心からの謝辞だと理解して許したりすることが可能となる。 編集 音声認識ソフトウェア例 Nuance Nuance Dragon NaturallySpeaking ドラゴンスピーチ 上記のソースネクスト版 IBM ViaVoice - IBMから買収 アドバンスト・メディア AmiVoice ES2008(エムシーツー) NEC VisualVoice (人同士の自然な会話に対応した音声認識ソフト、コールセンター向け) VoiceGraphy (議事録向けの音声認識ソフト) WebOTX Speech Recognition (音声認識ミドルウェア) マイクロソフト Windows Vistaなどに標準搭載 Vocollect Vocollect Julius/Julian (フリーの音声認識ソフト) Lab9 Solutions SpeechLab SDK & MobileSpeech NTTアイティ株式会社 FutureVoice EX(高品質音声合成ソリューション) SpeechRec(高精度音声認識ソリューション) VoiceMail(音声版Saas) ADVICE(音声自動応答プラットフォーム) 株式会社シーネット(C_Net) ci.Himalayas/voice(音声認識ソリューション) 編集 音声認識を応用したゲームソフト例 シーマン 大玉 オペレーターズサイド デカボイス ピカチュウげんきでちゅう Touch! Generations 機動戦士ガンダム 戦場の絆 TALKMAN 編集 参考文献 Lawrence Rabiner (1993), "Fundamentals of Speech Recognition", Prentice Hall, ISBN 0-13-015157-2 Frederick Jelinek (1998), "Statistical Methods for Speech Recognition", MIT Press, ISBN 0-262-10066-5 Manfred R. Schroeder (2004), "Computer Speech: Recognition, Compression, Synthesis", Springer-Verlag, ISBN 3-540-64397-4 編集 外部リンク "Survey of the State of the Art in Human Language Technology (1997) by Ron Cole et all" 音声認識技術に関する特許出願技術動向調査報告(PDF) 特許庁総務部技術調査課(2003年5月22日) 音声認識について考える Shun GALE project DARPAの音声認識と機械翻訳を組み合わせたプロジェクト HTK Hidden Markov Model Toolkit CMUSphinx オープンソースの音声認識エンジン(カーネギーメロン大学) 編集 出典 ^ a b c 野澤哲生著 『多数の人の声を一度に聞き分ける聴覚センサ』 日経エレクトロニクス 2008年9月22日号 115-123頁 ^ 成田一『パソコン翻訳の世界』講談社 ^ Wall Street Journal 編集 関連項目 パターン認識 自然言語処理 音声分析 音声処理 音声強調 音声合成 音声検索 VoiceXML 表・話・編・歴 テクノロジー 応用科学 考古学 · 人工知能 · セラミック技術 · コンピューティング · 電子工学 · エネルギー · エネルギー貯蔵 · 地質工学 · 工学物理学 · 環境工学 · 環境技術 · 水産学 · 物質科学 · マイクロ技術 · ナノテクノロジー · 原子力技術 · 光学技術 · 素粒子物理学 · 光コンピューティング · 動物学 情報 情報通信技術 · グラフィック · 情報技術 · 音楽技術 · 音声認識 · 体系学 · 視覚技術 産業 ビジネス情報学 · 建設 · 金融工学 · 水産業 · 工業技術 · 機械 · 製造 · 鉱業 軍事 軍用技術 · 軍事技術 · 弾薬 · 爆弾 · 工兵 · 兵器工学 · 軍事通信 · 陸軍工兵 家庭 教育工学 · 白物家電 · 家庭技術 · 食品技術 工学 航空宇宙工学 · 農業工学 · 建設工学 · 音響工学 · 自動車工学 · 生物化学工学 · 生体工学 · バイオメカトロニクス · 医用生体工学 · 生物工学 · 放送工学 · 国際建築士 · セラミック工学 · 化学工学 · 土木工学 · 計算機工学 · 国土技術 · 制御工学 · 低温物理学 · 電気工学 · 電子工学 · 工学管理 · 工学技術 · 活動工学 · 娯楽工学 · 環境工学 · 食品工学 · 遺伝子工学 · 水理学 · 生産技術 · 物質工学 · 機械工学 · メカトロニクス · 金属工学 · 鉱山工学 · 船舶工学 · ネットワーク工学 · 原子力工学 · 海洋工学 · オントロジー工学 · 光工学 · 石油工学 · 無線周波数工学 · ソフトウェア工学 · 構造工学 · システム工学 · 工学技術者 · メディア通信工学 · 織物工学 · 再生医学 · 交通工学 · 輸送工学 健康 / 安全 バイオインフォマティクス · 生体工学 · バイオテクノロジー · ケモインフォマティクス · 防火技術 · 健康科学 · 医療技術 · 栄養学 · 薬理学 · 安全工学 · 衛生工学 交通 航空宇宙科学 · 航空宇宙工学 · 自動車工学 · 海洋工学 · モータービークル · 船舶工学 · 宇宙技術



http://www.pioneer-event.com/panel/lightwindow/rd

YouTube - ‪音声認識技術AmiVoiceの紹介‬‏

3:39Add toAdded to queue 呼べるディジタル地球儀 (音声認識Google Earth)by spacewalkerjp1,953 views. 0:15Add toAdded to queue 音声認識でハンズフリーレストラン検索 「声探」by jishiha564 views ...



<a href http chalow net 2009 09 23 4 html rel nofollow > iPhone < a>
http://www.flickr.com/photos/yto/3947748068/

YouTube - ‪iPhoneで音声認識アプリのデモ‬‏

iPhoneの音声認識アプリを使って、声で乗換案内を行うデモ ... 1:22Add toAdded to queue 音声認識技術AmiVoiceの紹介by AMIpress20075,510 views. 1:21Add toAdded to queue 世界が認めた音声ソリューション:Vocollectby ...



<a href http chalow net 2009 09 23 4 html rel nofollow > iPhone < a>
http://www.flickr.com/photos/yto/3946968025/

iTunes App Store의 iPhone, iPod touch 및 iPad용 コエタン!音声駅名検索(関東版)

iTunes App Store에서 Traffic Gate, Ltd.의 コエタン!音声駅名検索(関東版)을(를) 자세히 알아보고, 리뷰를 읽고, 다운로드합니다. ... 音声認識駅名検索. ・駅のルート情報表示. ・地図のルート情報表示. ・無料. 注意: ・iPod Touch 2Gでご利用いただくにはマイクが ...



<a href http chalow net 2009 09 23 4 html rel nofollow > iPhone < a>
http://www.flickr.com/photos/yto/3947748288/

Research keyword[音声認識] - Researchmap

list from keyword `Research keyword[音声認識]



ClientTg edunet 1
http://www.flickr.com/photos/50598155@N04/4965811061/

AppStoreHQ RSS Feed For Application: 音声認識付箋ST(3GS専用)

AppStoreHQ RSS Feed For Application: 音声認識付箋ST(3GS専用) 音声ãƒ*ã"¹ãƒˆã"¤ãƒƒãƒˆã*®ã"¢ãƒ—リ欲ã... (# iphoneapp - Twitter Search) ...



ClientTg edunet 2
http://www.flickr.com/photos/50598155@N04/4966413410/

音声認識付箋ST(3GS専用) for iPhone, iPod touch, and iPad on the ...

Learn more, read reviews, and download 音声認識付箋ST(3GS専用) by Advanced Media,Inc on the iTunes App Store.



No 1Safari 2myFoxJ 3 4PIM Google GoogleSync WindowsMobile 5 6SMS MMSSMS MMS 7MMSMMS WiFi 8Mail 9i 10iComic Zip FTP 11iDicEPWing Wikipedia 12SkypeVOIP WiFi 13GV MobileGoogleVOIP 14Truphone3G VOIP 4 15 16 A BFringVOIP SkypeMSN 3G C DFaces Visual Dialer
http://www.flickr.com/photos/smileless/3788203334/

Kinect 音声コマンド | Xbox 音声認識 | Xbox カスタマー サポート

Kinect 音声コマンドを使用して Xbox 360 本体を操作できます。Kinect 音声認識機能の詳細については、Xbox カスタマー サポートに確認してください。



音声資料 - VisWiki

音声資料 - 方言学, 映像資料, サイエンス・ミュージアム, 図像資料, 歴史資料 - VisWiki ... 音声認識. 口笛. 弱音器. 超音波. 聴覚. メロディ. 回折. 声. 録音. 倍音. 音響装置付信号機. ソニックブーム. 残響. 反射. 相対音感. 音響監督. いびき. 効果音. クジラの歌. 声喩. 難聴. 山彦. 音の壁. エアチェック. 音源. 音波. 低 ...



Job Accommodation Network

音声認識 (プログラミング) Codevox for Visual Basicには、Visual Basic開発環境向けの世界最高水準の音声認識プログラムであるL&H Dragon NaturallySpeakingが ... 音声認識 (Windowsパソコンとその他のOS) Synapse TAP Workstations (http://www. ...