2012年07月05日

携帯の音声認識とエシュロン

最近の携帯は音声認識の機能を搭載している。
今一番よく見るCMはドコモのこれ
宣伝しているのは「しゃべってコンシェル」という機能。

コンシェルはたぶんコンシェルジェをもじった造語。コンシェルジェとはもともとホテルで、客のいろいろなリクエストに答える総合案内・解決係みたいな担当者。海外ではミュージカルやコンサートのチケットなども手配してくれる。コンシェルジェ自身の個人的人脈を生かして取りにくいチケットを手配してくれることもあって、その場合かなりのチップをはずまなければいけない。海外ではと書いたものの、国内ではコンシェルジェに何か頼んだ経験がないので、どの程度までしてくれるのかはよく知らない。

ホテルから始まった職業だが、今はデパートとかでも「お得意様サービス係」的な位置づけでコンシェルジェと呼ばれる担当がいることもある。そのほかいろんな業界で顧客サービス係をコンシェルジェ・サービスなどとネーミングしてちょっと乱発気味。こんなにあちこちにコンシェルジェがいるのはたぶん日本だけの傾向。

今思い出した!
国内でホテルのレストランの予約がうまく取れないときに、そのホテルのコンシェルジェ経由で頼んで何とかなった経験は何回かある。


話がそれたが、音声認識の機能を最初に搭載したのはiPhone。
Siri(シリ)と呼ばれている。CMはこんな感じ
Siriはアップルが買収した、その技術を開発した会社の名前。それでその社名の由来はノルウェー語の人の名前らしい。


iPhoneでSiriを使ってみると音声認識の精度自体は高い。CMのように「京都の天気」とか「ニューヨークは今何時?」と問いかけると即座に答えが返ってくる。「き・よ・ぅ・と・の・て・ん・き」と言い聞かせるように喋らなくても普通に話してOK。ただし英単語は聞き取れても理解できない。iPhoneにいれている音楽はほとんどクラシックなのでそれを再生させようと、日本語的にモーツァルトというとMozartと認識するが「Mozartが理解できません」との答えが返ってくる。理解してるヤン!と突っ込みたくなるけど(^^ゞ 英語の文章もダメで「ニューヨークは今何時?」と尋ねるとニューヨーク時間の時計が表示されるが「What time is it now in New York?」といってもトンチンカンな答えしか返ってこない。私の発音が悪いのかな?

音声認識の精度は高いとはいえ、じゃそれで何ができるかというと今のところ実用的にたいした使い道はない。アドレス帳に登録してある人の名前を告げると電話番号やメアドが表示されるのが便利なくらい。もっとも私の場合、電話やメールはスマートフォンではない古いドコモの携帯でしかしないので、その機能も活かせずじまい。

しかし今は遊び程度でも、とても将来性を感じさせる技術である。SFの世界ではコンピューターが喋るのが当たり前だが、生きている内にそんな時代が来るとは思っていなかった。10年後が楽しみ。今よりもう少し進化したらパソコンにも搭載して欲しい。メールやウェッブを見るのがかなり楽になりそうな気がする。



長い前置きが終わっていよいよ本題。

今年の3月にiPhoneでSiriのサービスが始まって「人の言葉がわかるんだ」と感動したが、同時に思い出したのはエシュロンのこと。

スパイ系映画をよく観るなら知っているかも知れない。エシュロンというのはアメリカの国家安全保障局によって運営されている(されているとされる)全世界に張り巡らされた秘密の巨大な盗聴網システム。無線、電話、ファックス、メール、データ通信等を監視しているといわれる。(ネットで調べてもウィキペディア以外は、マタ聞きのマタ聞きみたいな情報しかヒットしない)


ふつう盗聴では、特定のターゲットの通信を盗聴する。盗聴器を仕掛けたり、電話線の途中で盗み聞きしたりなどは何となく想像できる。エシュロンはそういうこともやるのだろうが、不特定多数の通信を傍受して、その中から国家安全保障に関わる重要な通信を見つけ出して監視しているといわれている。

昔観た映画にこんなシーンがあった。
なぜかアメリカ政府に追われるようになった主人公に、元エシュロンのエンジニアだった男がこういう。(映画の内容はうろ覚えなので大体のストーリーとして受け止めて)

「君が電話で大統領という単語と、爆弾という単語を会話で使えば、エシュロンは即座にそれを察知して、君を監視対象に加え、あらゆる君の行動を監視するようになる。このレベルは20年前に完成している。今はもっと高度になっている」※映画を観たのは15年くらい前だから今なら35年前となる


メールはデジタル・データだから盗聴して、その内容を検索し重要な情報をピックアップするのは難しくないと思う。しかし、電話のような音声データ、しかも全世界の不特定多数の音声データを処理するなんてとても現実的とは思えなかった。だからエシュロンの組織があって大規模な盗聴活動をしているとしても、それは「多数の」特定ターゲットが対象であって、不特定多数=世界中の通信から重要な情報を拾ってくるなんて、やっぱり映画や小説の世界の作り話なんだろうなあというのがその時の感想。


しかしSiriを使うとその考えは変わる。35年前ではプログラムとコンピューターの処理能力を考えれば、やはり映画の作り話になってしまうものの、10年くらい前からならリアリティはある。全世界の通信がどれだけの量なのか想像もつかないが、例えば特定のエリア、霞ヶ関と永田町にエシュロンの網を掛ける程度ならできそうな気がする。

音声認識技術の将来は楽しみであるが、なんかイヤ〜な世界も同時に実現しそうでこわい。まあ何事にもダークサイドはあるからしかたない。これから大事な話は符牒で話したり暗号でメールするか。

ちなみに一番簡単な暗号の作り方は母音と子音のところに適当な重複しない文字を当てはめる方法。

       アカサタナハマヤラワ
       ↓↓↓↓↓↓↓↓↓↓
       しようひぜいがたかく
   ア→な
   イ→る
   ウ→の
   エ→い
   オ→や

例えば「おはよう」を上の表に当てはめると「しや いな たの しの」となる。長い文章は面倒になるが、どうしても秘密のメッセージのやりとりをしたければ使ってみて。


あっ、いけない。
エシュロンのことを書いたし、暗号の作り方まで解説してしまった。
これで、このブログもエシュロンの監視対象になったに違いない。
もちろん、このブログを読んだあなたもである。
これからはCIAのエージェントに尾行されていないか気をつけてお出かけください(^^ゞ

wassho at 10:30│Comments(0) 社会、政治、経済 

この記事にコメントする

名前:
URL:
  情報を記憶: 評価: 顔