テープ起こしにおいて音声認識ソフトとは - テープ起こしはタイピングベース | まごころ込めて1分99円～

録音された音声ファイルを全てテキスト化するという作業には、莫大な時間を必要とします。個人のタイピングスキルや仕事の経験値によって大きく左右される面もありますが、平均的には半日ほどの時間を費やす案件が多いようです。

近年は音声を認識するソフトというものが多く出回っていますが、テープ起こし・文字起こしとこのようなソフトとは、今後どのような関係になっていくのでしょうか。

さまざまな音声認識ソフト

音声認識ソフトと言われて皆さんは何を思い浮かべますか？　
私たちの身の回りで最も身近なものといえばiPhoneなどにも搭載されているSiriなどが有名でしょうか。対応言語も多く、現在では40言語ほどの言葉に対応しています。同じアップル製品では、MacにMac音声認識がデフォルトで搭載されています。マイクロソフトもWindows７から音声認識をデフォルトで搭載するようになりました。

その他のソフトで有名なものといえば、Android対応のグーグルの音声入力が有名でしょうか。グーグルはそのほかにもGoogleドキュメントでの音声認識や、有料のVoice Rep Pro 2というソフトもリリースしています。
このソフトは音声ファイルのテキスト化機能がついているので、文字起こし用のソフトとして使うこともできなくはありません。音声ファイルのテキスト化機能がついているソフトでその他に代表的な音声認識ソフトには、アドバンスト・メディアからAmiVoice SP2、 VoXT(VoXTセルフ)、ニュアンス・コミュニケーションズからドラゴンスピーチ11が、いずれも有料にて公開されています。

認識のされ方、また認識精度にはどれもそこまでの差異はありませんが、やはり有料のものとなるとそれなりの実用性はあるようです。

スタンドアロン型とクラウド型

これらの音声認識ソフトは、その特徴から大きく二つに分けることができます。

まず一つにスタンドアロン型というものがあります。Stand alone＝孤立と直訳できることからわかるように、オフラインで音声認識を行うことが可能なソフト形態のものを指しています。これらのタイプはコンピューター単体で認識処理を行っていくのが特徴です。

もう一方はクラウド型というものです。クラウド型は、インターネットを介しクラウド上の認識サーバーに音声ファイルが送られ、そこで認識処理が行われユーザー側にテキストデータを送り返すというもの。こちらの音声認識は、ディープラーニングという技術の導入により目覚ましい進化を遂げています。

少し話を変えてこのディープラーニングについて話していきましょう。

ディープラーニングという技術

一昔前まで、コンピューターというものは高度な計算ができる機械という存在にすぎませんでした。コンピューターがある問題を解くためには、その問題を解くためのアルゴリズム＝算法をわれわれ人間が与えてやる必要があったのです。

ディープラーニング出現以前のコンピューターというのは、人間が前もって物事の特徴を定義する必要性がありました。

例えば、青い丸と赤い四角、青い四角という図形があるとします。これらを分類する上で、色ならば色、形ならば形で人間が特徴を定義（＝アルゴリズムを与える作業）してやる必要があったのです。アルゴリズムを与えられた人工知能は、青い色と赤い色に分別することや、四角と丸に分類することは容易にできます。しかしこれらのアルゴリズムから少し外れ、黄緑の四角や青い三角といった複雑な色や形がきた場合は、特徴を表現することが困難になってくるのです。このためディープラーニング以前の人工知能というのは、人の顔を認識して特徴を分類するといった作業があまり得意ではなかったのです。

それに対してディープラーニングでは、コンピューター自身が分類の仕方を学習することが可能になりました。以前は特徴の量を人間から指示され分類のアルゴリズムとして使っていましたが、ディープラーニングでは簡単な特徴量を自身で組み合わせて情報解析の精度を上げていくことができるようになったのです。データが増えれば増えるほど機械が学習していき、精度がどんどん向上していくというわけです。

シュワルツェネッガーの『ターミネーター』やウィルスミスの『アイロボット』など、人工知能が人類に対し攻撃を仕掛けてくるといったSF映画は数多くありますが、それらの作中で出てくるロボットたちが実現する世界というのは夢物語、あくまでもサイエンス“ファンタジー”だったのです。しかし、近年ではさまざまな技術が開発され、どんどん現実がフィクションの世界に近づいてきています。
映画『ターミネーター２』ではシュワルツェネッガー扮するアンドロイドに主人公であるジョンが言葉を教えるシーンがあります。会話して言葉の意味について学んでいくというあたり、ディープラーニング技術による人工知能の行く末なのか…？　といらぬ心配をしてしまいます(笑)。

しかし、現実ではこのディープラーニング技術というのも高度なデータ認識ということだけしか実現しておらず、そのあとに待ち受ける推論や判断といった作業はまだまだ人間がやるべきことなのです。人工知能はわれわれ人間が感覚的に対応しているイレギュラーに対してはまだまだ弱いのです。
仮にテープ起こしの場合で例を挙げてみるのであれば、話者の感情や精神状況が不安定な状態での録音音声などが不確定要素を生む可能性が高いと言えるでしょう。数学的に統計から情報を判断することには長けていますが、それ以外の不規則な要因に対処することは今の技術力では（今後もどうかはわかりませんが…）不可能に近いといっていいでしょう。

実用面での音声認識ソフト

技術的な話はこのくらいにしておいて、もっと実用面について掘り下げていきましょう。

まずスタンドアロン型の音声認識ソフトの実用性について。
最初にご紹介したものの中ではMac・Windowsの音声認識ソフト、ドラゴンスピーチ11、AmiVoiceSP2がこれにあたります。スタンドアロン型はインターネットを経由しないので、オフライン状態で音声認識を使用することができます。また、ソフト自体の設定なども各自で行えるため使いやすいようカスタマイズしていくこともできるのです。特に有料のソフトはカスタム性も高く認識率もかなり高いとされています。

単体で起動でき、動作性も高いスタンドアロン型ですが、やはり誤認識は避けられない面はあります。高いカスタム性が裏目に出てユーザー側で修正を加えなければならないというのも悩ましいところでしょう。また、ソフトによって得意不得意な音声を持っていることが多く、統一して使い続けることが難しいというのも難点です。

一方クラウド型音声認識ソフトですが、GoogleのVoice Rep Pro 2、VoXTセルフが代表的です。こちらはインターネットを介してサーバー上でテキスト化を行うサービスなので、情報がサーバー上に集積されます。そうして集められたデータを元に音声ファイルを分析しテキスト化していくため、スタンドアロン型のさらに上をいく高度な解析結果が得られることになるのです。

しかしながら、メリットでもあるこの点が一つ間違えると大きなデメリットとして機能してしまいます。
音声ファイルをクラウド型音声認識ソフトによってテキスト化する、ということは同時にインターネットを介して情報が行き来していると言い換えることができます。お気付きの方もいるかとは思いますが、これは要するに、情報漏洩のリスクが高まるということを意味します。クラウド型のサービス全般に言えることですが、この手のサービスは気軽に情報のやり取りができ非常に便利なのですが、その反面サービス事業者に情報を一時的にでも委ねなければならないというリスクがあるのです。

これはGoogleの利用規約などを読んでもらえればわかると思います。例えばVoice Rep Pro 2で音声認識を利用したとすると、使用したデータはGoogleの音声認識サーバーに送られ、Googleで保管されます。さらにこのデータは必要に応じて利用される場合がある、という旨も利用規約に記載されているのです。利用規約はソフトの使用前に同意しなければいけないので、Voice Rep Pro 2を利用しているユーザーの方々はそのデータをGoogleに預けている状態にあると言ってしまうことができます。
仮に重要な音声データをVoice Rep Pro 2を介してテキスト化していた場合、その情報が不正アクセスなどにより漏洩する可能性がゼロではなく、そうなってしまった場合利用者側は規約に同意しているためどうすることもできないということになってしまうのです。

一応、Googleの場合は収集したデータはGoogleのプライバシーポリシーに従って利用すると明記しており、不正アクセスや不当な情報開示・破壊からユーザーを守るため対策を講じていると記述されていますが、絶対に大丈夫だと言い切ることはできません。性能としては非常に高いのですがそれをおいてもこのようなデメリットが出てきてしまうのが難点と言えるでしょう。

テープ起こしにおける音声認識ソフトの活躍と将来性

ここまで音声認識ソフトについてざっくりと話してきました。
近年目覚ましい発展を遂げてきた人工知能による音声認識ですが、正直言ってまだまだ発展途上の技術と言えるでしょう。

画像認識の分野では、人工知能もかなり実用性をあげてきているようです。認識して分類すると言った面ではだいぶ強力なので、防犯や交通整備などに活躍が期待されています。
音声認識も家電に導入されたり人と会話することができるロボットが開発されたりと活躍の幅を広げていますが、テープ起こしなど記録をしていくと言った場面では、まだまだ人間の手は必要です。

一番大きな問題はやはりスペルミスや漢字間違いなどの誤字です。よくあるのが、同音異義語の間違い。かどう（稼働、可動、華道）、きかん（期間、機関、器官）、こうせい（構成、校正、後世）など、文脈や話の流れから判断するしかない単語ではミスが頻発します。また人名や地名などの固有名詞もよく間違われることがあります。

人間が文字起こしを行った場合でも言えることですが、こう言った間違いは最終的にお客さまや音声の内容を熟知した人間にしか判断することができません。そういった点も含め、現時点で文字起こしにおいては、人間がその手でやっていく方が確実だと言えるでしょう。

作業補助として使っていくのには十分すぎるほどの能力を発揮してくれるかとは思いますが、現状を鑑みるにテープ起こしのメインとしてソフトを運用していくには少しハードルが高いように思われます。

まとめ

文字起こし作業というのは、事実大変手間がかかる作業です。
聞き取りにくい音声や大人数での会話、長時間続く会話を文章化していくのにはかなりの集中力が要ります。そんなテープ起こしの作業を少しでも楽にするのに音声認識ソフトというのはかなり便利なものであるというのは間違いないことでしょう。

ただ、忘れないでいただきたいのが、音声認識ソフトというのはまだ完璧な存在ではないということです。

いつの日か、このようなソフトが人間と同等またはそれ以上の認識能力でテープ起こしを行ってしまう日が来るかもしれません。そんな日まで、しばし私たちの文字起こしというお仕事にお付き合いいただけたらな、というのがわれわれのささやかな願いです。

< 一覧へ戻る