音声認識を使ってメモを取れる時代がやっときた!

手書きでメモを取るのがメインであることは変わりがないのですが、ちょっとしたメモだったりノートを出せない時などはスマートフォンのメモアプリにメモを取ることが多くなりました。

しかし、スマートフォンにテキスト入力するのは誤変換も多くてたまに面倒になってしまいます。iPhoneを利用しているのですが、変換候補を押し間違えたり勝手に変換されたりしてたまにイラッとしてしまいます。

そこで、音声認識技術を使ってメモを取れるのであればもう少し楽になるのではないかと思って実際に使ってみることにしました。

音声認識利用を検討するのは今回で2回目

実は音声認識を利用しようとするのは今回で2回目になります。前回は5年以上前で、当時某音声認識エンジンを提供している企業の方と話をしている中で「認識率が良くなったので使ってみて下さい」と勧められたのがきっかけで、iOS向けアプリを利用して音声のテキスト化に挑戦してみたのです。

ちなみに、そのアプリは当時勤めていた会社の同僚が使っていて「誤変換もあるけど楽だよ」と言ってたのでかなり期待してインストールしました。ただ、期待していたよりは認識率が悪く、修正箇所が結構な頻度で発生するので面倒になってしまい利用するのをやめました。今から考えればすべてを手入力するよりは省力化できるだけの認識率はあったのですが、当時死ぬほどTwitterへの投稿を行なった結果としてフリック入力の速度が大幅に向上していたので手入力で十分だと思っていたのがやめた理由の多くを占めていた気がします。

今回音声認識を使おうと考えたのは、Googleアプリの検索で音声認識を使ってみたらかなり認識率が良かったからです。検索なので「単語認識が優秀」だっただけであり、文章レベルになるとどうなんだろうという不安はありましたけどね。ただ、ニューラルネットワークの実用化により音声認識の精度が飛躍的に上がったという話も聞いていたので、文章でも大丈夫なんじゃないかという期待も持っていました。

Googleが提供するGboardを使ってみた

最初は音声認識に対応したメモアプリを探していたのですが、メモアプリを増やすことで情報集約のために転記する作業を発生させてしまうとせっかくの効率化が無駄になるのではないかと思い他の方法を探すことにしました。

その時にふと思い出したのですが、Googleが提供するキーボードアプリ「Gboard」がリリースされた時にインストールしており、それを使ってGoogleの音声入力が使える環境がすでにできていたんですね。キーボードアプリなので、今使っているメモ帳アプリで利用することができますし、音声入力機能をそのメモアプリに付加した形で運用ができるので1番いい形ではないかなと考えました。

実際、メモアプリで試しに使ってみたのですが普通に使えて問題なしです。この記事も試しに音声入力で書いてみたのですが、誤認識もほとんどなく問題なく入力することができています。Googleの音声認識精度かなり凄いことになっていますね。。。

問題があるとすれば以下の2点になります。
1.音声入力画面が別画面になる
2.句読点の入力は手作業

1.音声入力画面が別画面になる

音声入力の時に別画面になるので文章全体を見ながら入力する文章を発することができない点はちょっと不便です。メモ画面のまま音声入力とテキスト化することができればもっと便利になるだろうと思います。

ちょっとしたメモであれば問題ないと思うのですが、アイデアをまとめるとか日記やブログを書くといったレベルでの活用となると直前の文章などを見ながら考える機会が多いですからね。このような考え方をしているのもあって、もしかしたら音声入力ができるメモアプリの方が私には向いているのかもしれません。メモアプリと音声入力を別アプリで実現している方法なので無理な要求にはなってしまうのですが、このあたり改善されると非常に嬉しいですね。

2.句読点の入力は手作業

実は「Gboard」を使う前に他の音声認識アプリを試しに使ってみたところ、句読点も認識して入力することができました。「てん」と発音すると「、(読点)」が、「まる」と発音すると「。(句点)」が入力されるのですごい便利だと思っていました。

「Gboard」でも当然句読点が入力できるものだと思って「てん」とか「まる」とか発音していたのですが、「店」とか「◯」とかに変換されてしまいます。おかしいなと思って検索してみたのですが、どうやら句読点には対応していないみたいです。せっかく文章を綺麗にテキスト化してくれているのに、途中で句読点を入れる作業が発生するのは結構もったいないと思います。

iOS向けだといろいろと縛りがあるのでしょうから難しい面はあるかと思いますが、対応してもらえるとありがたいですね。

そもそもiOS純正の音声入力使えばいいんじゃないの?

「Gboard」を利用した音声入力で不便だと思った点を書こうと思った時にふと「iOSの音声入力使えば解決されるんじゃないの?」という思いが頭をよぎりました。

普段Siriなども使っていないのでAppleの音声認識精度がどの程度のものなのかわかりませんが、これだけiPhoneユーザーが多いのであればGoogleにおけるAndroid端末と同様iPhoneでもかなりの音声データが収集されていて、認識精度がかなり高いだろうことは想像できます。

ということで、早速純正キーボードに戻して音声入力を試してみることにしました。音声認識を許可する際に連絡先情報などもAppleに送信されるというのはなんか嫌でしたけどね 笑

試してみた結果ですが、「Gboard」で問題として挙げていた2つの問題点があっさりと解決されました。メモアプリ上でどんどん音声入力とテキスト化ができますし、句読点も入力することができました。

まだそれほど試していない段階ではありますが、認識精度も結構高くて普通に使えますね。ということで、これからは声を出せる状況であればどんどん音声入力を使ってメモを取っていこうと思います。

外だと声を出しにくいですが、電話をかけているフリをしながら入力していればそれほど違和感もなく使えそうな気もします。外を歩いている時にいろいろな考えが浮かぶことが多いので、歩きながらメモを取れるのはかなり嬉しいことです。

文章を書く機会が多い仕事をしているため、長文を書く際はパソコンを開ける時に気合を入れて作業に取り組んできたのですが、音声入力が機能するのであれば下書きとしてどんどん喋った内容をパソコンを使って清書するという形で効率化につなげることもできそうです。

今更という話にもなりますが、これも音声認識技術が大幅に進歩したことで受けられる恩恵ですよね。…なにより、これでやっとブログの更新頻度も上げていくことができそうな気がします。。。

全般

Posted by いとひろ