私たちが会話を楽しむ時、必ずしも正しい文法や言葉で話しているわけではありません。
主語が抜けることはしょっちゅうあるし、何の前置きもなく突然話が飛ぶこともあります。
言い間違いもします。
だけど完璧でなくても、何となく察して話を理解しています。
難聴になると、そういう会話はできなくなります。
話下手で要点が分かりにくい人がいますが、聴こえていた時はしばらく内容を聞いて総合して言いたいことを察していました。ところが 難聴になると最初に何の話かを明確に教えてもらわないと話を推測できないまま、「?」で終わってしまいます。
そこで期待したいのが音声認識アプリです。
これを開発してくださっている方には本当に感謝です。
ですが、今はまだ期待しているレベルです。
以前より役立つものになっているとはいえ、相変わらず誤変換が多いからです。
周りに誰もいない静かな環境で、はっきり発音する人の言葉はかなりの精度で文字化してくれますが、そんな環境は少ないし、話すことに夢中になっている人の発音は決してきれいではないようで、相変わらず変換された文字はめちゃくちゃなことが多いです。
今回はこの音声を文字に変換してくれるアプリへの要望です。
期待しているので書き方が厳しくなるかもしれませんが、頼りたくて仕方がないからの要望なので、それはどうか許してください。
今後、より一層使いやすいものに進化することを心から願っています。
■私のアプリの利用状況
私は複数の音声認識アプリを併用しています。
進化の過程で使い物にならなくなったり、エラーが増えたりすると、利用するアプリを変えています。
それぞれに特徴はあるのですが、昔から使っているアプリは変換スピードが遅いので最近は出番が減っています。
普通の会話にさりげなく参加するには、ほぼリアルタイムに文字が起こされないと、動作と会話がかみ合わないので、話について行きにくいためです。
この数年間に新たに登場したアプリは、ほぼリアルタイムに文字が起こされるので、会話のスピードについて行くにはそちらの方が便利なため、現在はそちらをメインで使っています。
使っていると、アプリも日々進化しているのを感じます。
進化はとても楽しみですが、進化が逆に使えないものになってしまうこともあるので、この「困った」はしっかり伝えたいと思います。
■私がアプリに求めていること
今の私の聴力は補聴器をしても言葉はほとんど聞き取れません。
聞き取るためには、口の動きやジェスチャーなどのヒントが必要です。
なので、今の私はスマホの音声認識アプリは手放せません。
誤変換が多くても、今の私の耳より遥かに聞き取ってくれるからです。
だけど実情は誤変換が多いので完全に頼ることはできないし、複数の人が話している場では音が混じりあうので使えません。
実はこの音声認識アプリで私が一番頼りにしていたのは、変換された文字情報ではなく、漢字などに変換される前の発音(ひらがな)情報でした。
それは音声を聴いているのと似ているからで、拾った音をひらがなで確認できることで誤変換に瞬時に気づけるし、変なところで切って全く違う文章になっても、頭の中で修正することができるのです。
ところがAIが進化するにつれて、ちょっとした懸念が出てきました。
音情報を伝えてこないアプリが出てきたことです。
これは一見、便利そうですが、誤変換に気づきにくいし、誤変換を正す手がかりがないので間違った言葉を伝えられてトンデモナイことが生じる可能性もあります。
今は文章が不完全なので、鵜吞みにはしていませんが、今後更に進化して自然な文章で勝手な言葉に書き換えられたら、間違った情報を信じてしまうかもしれず、それはとても恐ろしいことです。
■AIの進化
最近はAIの進化に人間の制度がついていけないほど進化が加速しています。
驚くほどの進化のスピードに期待よりも不安の方が大きくなってきました。
未来には完璧に音情報を伝えてくれる相棒が登場するかもしれないと期待しつつも、今を生きている私は進化の過程で受けるマイナスを味わいたくはないです。
現状では徐々に語彙量は増えていると感じますが、相変わらず誤変換は多いです。
専門用語は苦手で、語彙量はアプリによって異なるように感じます。
だけど語彙については、徐々に解決するだろうと思っていてあまり気にしていません。
問題は漢字に変換する前の音情報です。
音声で一番難しいのは、必要な音をどうやって拾い出すかです。
機械は人間が誰の声を聴きたがっているのかは分からないので、複数の人間の声が同時に入ればその時点で当然に情報は狂います。
そして、音源から離れたら聞き取りにくくなるのはアプリも同じで、音を拾っているスマホなどの機材の性能の影響をモロに受けます。
どれだけAIが優秀になっても、必ず聞き間違いは生じるのです。
それだけにスマホに入ってきた音を目で確認するのは、情報の精度を判断する上でかなり重要な情報となります。
これは 健聴者が音で正答を確認しているのと同じことを、拾った音が並んだひらがなで確認していると言えば分かるでしょうか。
ちなみに少し前までは音声の認識精度に一喜一憂していました。
ところが今は拾った音は正しいのに違う発音の言葉に変換されて意味不明で困ることが増えました。
現在進化しているのは音を正確に拾うことよりも、文章化処理の方に寄っているように感じます。実際のところは分かりませんが利用しているとそう感じることがよくあります。
多くの難聴者が求めているのは、聴こえない音を補ってくれることです。
多少でも聴こえている人は自分の耳も使っているので、自分の耳からの情報と一致しない文章が並ぶとかなり混乱します。
全く聴こえなければ、この誤った情報をそのまま受け取ることになるので、これも大問題です。
だから認識した「音」の情報を伝えないような進化は困るのです。
その点において、進化の方向性に一抹の不安を感じています。
■発音と違う言葉に変換するのは止めて欲しい
私が使っている音声認識アプリの1つは、何年か前に登場したアプリで、公開前から期待を寄せていたアプリでした。
そのため公開後すぐにインストールして使い始めました。
最初の1年はすごく満足度が高く、未来が拓けた気分になりました。
ところが、その後の進化でガッカリした経緯を辿ったので、そのことを少しお話させてください。
公開当初、どこに満足したかというと、スピードはもちろんですが、入って来た音声が正確にひらがなでリアルタイムに画面に展開されたことでした。
難聴者には重度・軽度の差がありますが、まだ聴こえていて部分的に聞き取りをカバーしたい者にとっては、耳に聴こえてくる音とほぼ同時に発せられている音をひらがなで見ることができるのはとても重宝です。
この状態の時の私は、発音情報により健聴者とほぼ同じスピードで話を理解できたので、誤変換はあまり気にしていませんでした。
多くの難聴者は、たぶん私と同じで『相手の話の内容を知る』のが目的ではなく、『相手の言葉を聞き取る道具として使っている』と思います。
そういう人には、自分が聞き取れない音を正確に拾ってくれる物がベストです。
完全失聴していても、誤変換がある限り 音(発音)情報は大切です。なぜなら音情報がないと誤変換に気づけないからです。
その点において、このアプリが新登場した当初は画期的なアプリが登場したと大喜びしたのでした。
ところがその後、拍手やノックといった余計な情報を伝える機能が追加されたことで、肝心の音声認識が落ちました。
この機能の追加がマイナスだったのか、そのほかの機能の変化が影響したのか分かりませんが、とにかく誤変換が増えて、満足度が急激に落ちてガッカリしたのを今でも覚えています。
その後、徐々に意味不明の言葉や文章が並ぶようになり、一時期は使い物にならなくなりました。
どういう変化かというと、発声した音とは異なる単語に勝手に置き換えられるようになったのです。
一例を挙げると、お店の話をしているのに、Apple社という単語が混じり、文章は意味不明。
なんでAppleになるのか気をつけていると、マックという名称を勝手にApple社に置き換えているらしいことに気づきました。
発音とはまるで異なるのでこの誤変換には困り果てました。
こういう置き換えをされると誤変換だと気付いても正しい言葉を見つけ出すのは不可能だからです。
仕事の話をしているのに、アニメの話になることもありました。
どうしたらこんな勘違いができるのか、人ではないだけに推測もできずほんとに困り果てました。
「最初のままなら便利だったのに・・・」と、この進化はとても悲しかったです。
誤変換するなとは言いません。
だけど少なくとも音には忠実であって欲しいです。
誤変換の文字が音に忠実ならば、読み方(発音)を頼りに別の言葉を探したり、文脈の切り方を変えたりして正しい言葉を探すことができます。
ところが全く違う読み方の文字に変えられてしまうと、正しい言葉を探す手掛かりがないのでお手上げです。
こういう進化は、難聴の私にはとても迷惑でした。
ちなみにこのアプリはしばらく使っていませんでした。
最近、再び使い始めたら、見た目が変化していました。
今は、当初のようにひらがなで一旦拾って漢字に変換する過程は省かれて、出て来る文字は最初から漢字混じりの文章です。
極端な言い換えは無くなったように感じますが、相変わらずアプリが言葉と見なさない音声は無視するなど、アプリの判断で勝手なことをしているように見えます。
先日、試しに自分で話して確認してみたら、正しく音を拾っていたのに、突然それが削除されて違う似た発音の単語に置き換えられてしまいました。
音に忠実であって欲しいのに、キャッチした音よりも、文章にすることの方が優先されているように感じました。
そのせいか、途中まで入力して、聞き取りきれなかったりすると、中途半端な文章はバッサリ削除して無かったことにしてしまいます。
こういう勝手な置き換えや削除は誤解や勘違いが生じるので、聴覚障害者の立場ではこのような進化は望みません。
■言い直した発音を認識しないのは困る
アプリを利用している時、話し手によってはアプリの文字を見ている人がいます。
誤変換に気づくと、正しい言葉に直すために、話している相手は言い直してくれます。
これはアプリによって異なりますが、何度言い直しても、同じ間違った言葉が出続けて困ることがあります。
最初は滑舌が悪いからぐらいにしか思っていなかったのですが、アプリによってはそうではないようです。
ほかの人が言っても、ひたすら頑固に同じ単語が並びます。
これには閉口です。
1対1の静かな場所でも同じことが生じます。
なぜそうなるのかは分からないけれど、頑固です。
感覚としてはアプリが間違って認識した単語に執着しているように感じます。
この状態に巡り合うたび思います。
素直に音を発音のまま文字にしてよ!と。
何となくですが、今のアプリは単語にしようとし過ぎていると感じます。
知らない言葉を無理やり知っている言葉に当てはめるのではなく、分からなければ音のまま、ひらがなで表記してくれた方が親切です。
人間の会話は、“正確な言葉に直せない=無意味”ではありません。
思い付きの造語を使うこともあります。
無理やり知っている言葉に当てはめようとすると誤変換に繋がります。
またアプリによっては無意味な文章だと判断したら無視する設計になっているものもありますが、その中には無意味ではない情報が混じっていることも結構あるので、アプリが文章処理できなければ意味不明の音の羅列のままで構わないので、相手が発言した痕跡は残してほしいのです。そうしないと「今、なんて言ったの?」と聞き返すこともできません。
■発音情報は正確に
私が使っているアプリの中に、漢字にフリガナが付くものがあります。
最近使っていて発覚したことなのですが、フリガナは読み方(発音)なので、私はてっきり『フリガナ=拾った音』だと思っていたのですが、違いました。
先日友人と話をしていて発覚したのですが、アプリで変換された文章の中で『下線(カセン)』が何なのか分からなくて「かせんって何?」としつこく聞き返しました。
友人は「げせん(下船)」と何度も言い直しますが、アプリでは『カセン』とフリガナを付けて『下線』の文字が並びます。
この誤変換はちょっとキツイと思いました。
なぜなら誤変換だと思った時、私たちはどういう音を勘違いして漢字に変換したのかと考えて、正しい言葉を探すからです。
もしも『下線』にフリガナが付いていなければ『下船』も想像の範疇に入りますが、「かせん」の発音で『下船』は浮かびません。
発音を正しく伝えないアプリは聴覚障害者泣かせです。
難聴の私たちがアプリを使う時、漢字の読み方を知りたいのではなく、相手が発した音情報が知りたいのです。
極端な話、幼児の絵本のようにひらがなで文字を起こしてくれても構わないと思うほど、正確な音に飢えています。
■要望(まとめ)
言いたい放題、いっぱい書き過ぎたので、最後に要望をまとめておきます。
【発音の情報が欲しいです】
これはあくまで私個人の要望ですが、私は 発言者の発音をそのまま伝えてくれるアプリが欲しいです。
正しい音を拾えているのに、勝手にアプリが別の言葉に換えてしまうことに閉口しているからです。
拾った時点の発音がそのまま並んでいれば 誤変換されても分かるので、ぜひ 発音そのままの情報は欲しいです。
だけど、ひらがなだけが並ぶと読みにくいというのはあるので、漢字に変換するのは構いません。
だけどそれならば、少し前のようにリアルタイムに拾った音をそのまま“ひらがな”で見せてから変換してくれる方が私は有りがたいです。
個人差はあると思いますが、元々聴こえていた難聴者は耳感覚での情報処理に慣れているので、リアルタイムの「音」情報はものすごく有りがたいのです。
そして、フリガナは歓迎ですが、フリガナは必ず音の情報と一致する必要があり、音情報と不一致なフリガナは混乱するので要らないです。
【勝手に文章を作ったり省いたりしないで】
最近の傾向としては、実際に発した言葉を忠実に文字起こししているのではなく、アプリが文章化できないとバッサリ削除することがあります。
これは手掛かりを完全消去する行為なのでとても困ります。
不完全なままで構わないので、拾った音のまま伝えてほしいです。
特に半分ぐらいを耳で聴いている難聴者の場合、要点以外の細かい部分の聞き取りを求めていることが多いので、勝手な削除は困るのです。
多くの難聴者がアプリに求めているのは、相手が話している言葉をそのまま正しく伝えてくれることで、話を要約して欲しいわけではありません。人は必ずしも正しく喋っているわけではないので、無理やり正しい言葉に置き換えようとはしないでほしいです。
それをすると話している人の意図とは違った内容が伝わってしまい誤解が生じます。
要約筆記なら人間でもできます。
機械だからこそできるのは、多くの情報の文字化です。
人間には真似できないスピードで処理できるからこそ、全ての言葉を正確に伝えてもらえることを期待するのです。
今後、AIの進化で、話を要約する機能がもてはやされる時代も来るだろうと思います。
だけどそれは聴こえのカバーとは別の話です。
聴覚障害者がアプリに求めているのは、あくまで耳の代わりだということを忘れずに進化してほしいと願っています。
少し非難的な文章になってしまいました。
すごく期待しているだけに、その期待が裏切られるのではないかとの心配から言いたい放題してしまいました。
ここに書いた事の中にはすでに改善されていることもあるかもしれません。
だけど私がここで伝えたいことは、改善して欲しいという話ではなく、間違った方向に進化しないでほしいということです。
AIの急激な進化で、今後、自然な文章で勝手に作文して伝えて来る可能性が出て来たので、それだけは止めてほしいとの要望です。
音声が聴こえない聴覚障害者は、常に正確な「音(発音)情報」を求めていることだけは忘れずに進化して欲しいと、これは心から願っています。
開発者の皆さま、どうかよろしくお願いします。
今回も最後まで読んでくださりありがとうございました。
・・・・・・・・・・・・・・・・・・・・・・・・・
[前回のナンチョー日記]
↓
ナンチョーな私の気まぐれ日記(26)字幕に感謝
[次回のナンチョー日記]
↓
ナンチョーな私の気まぐれ日記(28)明日は聴こえているかな?
【難聴関係の記事】
■聴覚関係の知識
■商品紹介・レビュー