AI技術を使って喋った言葉に即座に字幕をつける機能を研究している大学があるそうだ。同時通訳などでも通訳者が長時間集中することは難しいから、機械で字幕までつけられるのなら聴覚障害者などにもありがたい技術になるだろう。

ところでその字幕を見ていて感じたことがある。講演者が話の途中で出した「え〜」「あ〜」「う〜」「あの〜」という言葉もすべて字幕に反映されている。これが字幕を非常に見にくくしている。特に政治家に多いが、次に喋ることを考えながら話していると間を持たせるためについ「こう思うわけでありますがぁ、あ〜〜〜、このようなことに対応するにもぉ、お〜〜〜、はぁ〜…」となってしまう。ずっと聞いているとこれが聞き苦しいのだが本人は全くづいていない。

「じゃあどうすればいいの?」という声も聞こえてくるが、それは簡単だ。黙って声を出さなければいいだけだ。紋切調にしてもいい。

「…だと、こう思うわけです」
「…」
「このようなことに対応するには…」

話の間に適度な間が入ると聞いているに方もそれまでの内容を整理する余裕が出てくる。声が途切れることなく、しかも意味のない雑音をずっと聞かされていると耳も脳も疲れてくる。そして話の内容だけがちっとも頭に入ってこない。

「あ〜」「う〜」と言えばかつての大平(おおひら)総理の代名詞だった。彼は原稿を読んでいる時ですら「あ〜、う〜」と言い続けた。もしかしてあれはこれから読む原稿の下読みをする時間を稼いでいたのかもしれないと思っている。何れにしても余計な音を入れるとなにを言っているのか分からなくなる。国会議員ははぐらかすためにわざとそうしているのかもしれないが、だとすれば”丁寧な”説明とは程遠い。

字幕の場合は特に、普通の文章に「あ〜」「そのぉ〜」」などと書かれることがないので余計に気になる。どちらかというと歯切れの悪い発言を文字に起こす時に”わざと”入れるような音だ。AI技術を使えばこういった本来は必要のない言葉を聞き分けて削除するくらいのことはお茶の子サイサイなのかと思っていたがそうでもないのだろうか。ボクはAIには全くの門外漢なのでなんとも言えないが願わくばこれくらいは実用化までになんとか実現してほしいものである。