投稿者「macj」のアーカイブ

iPhone 3GS:音声認識で電話をかけるには

今のところ、iPhone 3GSをすぐに買う予定はないのですが、3GSについて気になる記事があったのでメモをしておきます。3GSでは、3Gにない機能として音声認識が注目を浴びています。電話をかけたり、iPodで音楽を聴いたり、といった操作を声でできる近未来的な機能です。

「もうiPhone 3Gには戻れない」
http://plusd.itmedia.co.jp/mobile/articles/0906/24/news103.html

音声認識は、自然言語まではいかないものの柔軟性が高く、「**さんに電話をかける」といったつながりをもった文章でも認識する。助詞のゆらぎも認識しており、「ちゃん」や「さん」、「先生」といった敬称がついても認識できる。そのほかにも、「鈴木に電話をかける」といった場合に候補が複数いると、その候補をフルネームで読み上げて聞き返してくるなど、ある程度の対話性も持つ。認識可能な言葉の自由度という点では、かなりがんばっていると言える。
 しかし、その一方で、日本語環境ならではの注意点や条件もある。
 まず、電話での音声コントロールでは、「連絡先」の情報で、「姓」と「名」の読み仮名がきちんと登録されているのが、正確性を高める条件になる。読み仮名がなければ漢字の読みを解釈するのだが、音訓の判別が人間並みとは到底いかず、失敗率は格段に跳ね上がる。また、会社名や外国人の名前を登録している場合も、読み仮名は日本語で登録しておかないと、うまく認識しなかった。音声コントロールを活用するには、どれだけ「きちんと連絡先を登録しているか」が鍵になりそうだ。

電話をかけるためには、連絡先をきちんと登録している必要があるとのこと。

以前のエントリーで、Gmailの連絡先と同期させた場合に問題となる、「Gmailにふりがな欄がないため、iPhoneで連絡先にふりがながつかない→iPhoneで連絡先が漢字順になり、意図しない順番になる。」という状況に対処する方法を書きました。が、この方法だとどうやら音声認識には姓だけあるいは名だけで認識させることができなさそうです。

過去記事:Gmailと同期した連絡先を完璧に整理!(ソート編)

Gmailと同期した連絡先を完璧に整理!(ソート編)

例えば、「鈴木 一郎(すずき いちろう)」という名前を、名=鈴木一郎、姓=スズキイチロウと登録しました。この場合、音声認識が利用するのは、”鈴木一郎”を無理矢理読んだもの、あるいは、”スズキイチロウ”になるようです。iPhoneから見ると”スズキイチロウ”は一塊で、どこが姓でどこが名なのかはわからないので、「すずきさんに電話」は通用しないということになりそうです。「すずきいちろうに電話」と言わないとダイヤルしてくれないんですね。

こりゃ、Gmailの連絡先に早いとこふりがな対応してもらわないと困りますね。明日になったら3GSで試した報告が続々出てくるでしょう。人柱よろしくw ケケケ(`∇)

【妄想】iPhone 3GS+Google Waveで未来の翻訳

世間がiPhone 3GS前夜で沸き立っている今日という日に、全然関係ないKYな話題をおひとつ貴方に。

少し前のことになるが、Googleのオーストラリア開発チームが新しいサービス"Google Wave"なるものを開発したと発表した。素人なので詳細はいまいちわからないが、リアルタイムに複数の人でひとつのソースを編集できるというものだった。例えば、ブログを更新しているその瞬間に、編集され変わりゆくブログを遠く離れたネットワークのどこかから訪問者がリアルタイムに見ることができたり、みんなでひとつのドキュメントを一緒に編集したり、そういうことができる革新的なサービス(技術)だという。ちなみにその発表会では「iPhoneでも使えますよー」、というデモもあった。(ただしデモはネットワークの不調により失敗)

プレゼンテーションの大半はやや残念な印象で、あまり途中まで盛り上がってなかったのだが、最後に歓喜を巻き起こしたデモがあった。実はそれが私の心を捉えたままなのだ。今日はそんなお話。

そのデモは、リアルタイム翻訳機能付きチャットだった。しゃべっている(チャットなので「タイプしている」)そばからフランス語が英語に翻訳されていく様子がそこにあったのだ。急に沸き立つ観客たち。猛烈に未来を感じた。技術的には素人な為、バックグラウンドにある技術に対する賛否両論はどちらの言い分もさっぱりわからないが、「コピペできます」と照れながら発表したiPhone OS3.0のデモよりエキサイトしたのは確かだ。今でも思い出すだけでわくわくできる。

さて、今日この記事を起こしたのは、このわくわくを思い出すたびにどうしても頭をよぎる考えがあるからだ。王様の耳はロバの耳ではないが、どうしてもこれをどこかに吐き出さずにはいられなくなったのだ。

「翻訳こんにゃくじゃないか!」

ふう。

吐いたところで少し落ち着いて考えてみたい。

翻訳こんにゃくはリアルタイム”音声”翻訳を実現したものだ。つまりは、声(日)→<音声認識>→テキスト(日)→<翻訳>→テキスト(英)→<音声合成>→声(英)のような処理がシームレスにつながったものだ。なんだ簡単そうじゃないか、そう思ってしまう。技術者の苦労をよそに。音声認識はiPhone 3GSで命令用に実用化され始めているし、音声合成は初音ミクみたいものがあるし、極端な話棒読みでもいいし、できそうじゃないかと。一番頼りないのは翻訳の精度なんだけれども。iPhone 3GS+Google Waveとかいいんじゃないか?

さらに妄想するを続けると、翻訳こんにゃくが実現している、「食べた人がまるで外国語をしゃべっているかのように見える」ようにすることもできそうだ。こんにゃくの中に、「ノイズキャンセリング付きスピーカー」と「広帯域無線ネットワークインターフェイス」を積んだカプセルを入れればいい。それが食べた人の胃の中で活躍すればできあがりじゃないか!

まず、話者が母国語を発話する。NC付きスピーカーが、身体の中に鳴り響く母国語の声をマイクで拾う。NC技術のように逆位相の音を腹の中から出して母国語の発声を打ち消す。一方、マイクで拾った音声を無線ネットワークを経由して音声認識+翻訳サーバーに送りだす。いくばくかの遅延の後返ってきた翻訳後の音声情報を胃の中から出力する。胃の中から出た音は、翻訳前の音声情報をもとにしてサーバー上で信号処理されていて、まるで本人の口で発話されているようにエミュレートされる。翻訳された耐用期間は排泄されるまでだ。

完成度はドラえもんが誕生する22世紀までに上げるとして、あと10年もすれば実用化できそうじゃないか!サイズが多少気になるが、翻訳こんにゃくも結構でかそうだったし、少々でかくてもこんにゃくだからツルンと飲みこめばいい!

そうだ。

ドラえもんが誕生するのは22世紀だが翻訳こんにゃくができるのは21世紀中だ!」

Google Waveに大いに期待します。

終わり。戯言でした。

アプリ開発雑記[12] サンプルコードが大量にupdate for OS3.0

最近、OS3.0対応状況がアプリによってまちまち過ぎて、しばらく落ち着くまで新しいアプリに手を出そうという気がなかなか起こりません。あの脳トレを最後に無料アプリすらダウンロードしてない状況。うーん、これはアプリ開発を進めなさいというおぼしめし(誰の?)に違いありません。

というわけで、最近は平日皆無、土日もどちらかに1時間程度しかやっていなかったアプリ開発に少し精を出してみることにしました。

今日は、サンプルコード集を久々にのぞいてみました。すると・・・

"Minor change iPhone OS 3.0"とか、"Content update iPhone OS 3.0"とかOS3.0がらみのアップデートが大量に出てました。5月の終わりぐらい始まって先週くらいまでに多くのサンプルコードにupdateが入っていました。ずいぶん覗いてなかったな。今までサンプルコードをベースにちょこちょこと作りたいもの近づけるという方針で作業をして来たのでちょいと面食らい気味です。

で、気を取り直して。

今考えてることをメモして明日から?頑張ろうと思います。

方針:「Tab Barをやめてシンプルにいこう」

TabBarでファンクションを切り替えるようにしようと思っていましたが、ユーザーにとって最初に何をすべきかが分かり辛くなりそうだったので、ToolBarを使用することを考え中です。サンプルコードとしては「UICatalog」が参考になると思われ。UICatalogはOS3.0がらみのアップデートで大きく変わっています。xibが各種UI毎に分割されていて自アプリへの活用がより容易になっています。以前同サンプルを見た時はxibじゃなくてべたにコードが書いてあって気が遠くなった覚えがありましたが、このupdateで新しく開発にチャレンジする方にもわかりやすくなったんじゃないでしょうか。(初心者のくせに偉そうですみません)

ますますアプリ開発は、ライブラリの部品をがちゃがちゃ組み合わせて、ほい!

3GSには目もくれず?ひたすらパズルプリズム。30万点突破。

世間が3GS予約解禁&発売一週間前に沸いている中、エビバデで3Gかって間もない私は3GS諦めモード。3GS情報には目もくれず、ブログ更新そっちのけでパズルプリズム三昧だったのでした。そしてその「3Gでいいや」ダークサイドのオーラを活かし、ついに、念願の30万点を突破しました!パチパチパチ。

IMG_0103.PNG IMG_0099.PNG

ここまでの道のり、長かったこと長かったこと。最近100万点を突破して総合2位を獲得された@nantanさん/Twitterのさりげない攻略法つぶやきを漏らさずフォローすることで念願の大台に載ることができたのでした。ということで、私が今心がけてる3つの攻略法をここに挙げてみます。

  • グレーを消す。(定石)
    • グレー、あるいは、グレーに隣接する段を消すとひとつしたのグレーも消えます。
  • 消えゆく段の2段下のグレーを見極める(@nantanさん曰く)
    • 序盤で下からの突き上げスピードがゆっくりのうちにこれを練習します。間違ってピンチを招くこともありますが、序盤ならなんとか復帰可能。
    • nantanさんがいる70万点前後の世界だとこれができないと即死らしいです。
    • 20万点クラスでは死にはしませんが、ブロック運が悪いor凡ミス1,2回すると危うくなるので、ガンガン消してグレーの表面を下の方でキープしておくことが重要だと思われ。
  • ピンチは狙いすました連鎖で脱出(自己流)
    • 下のスクリーンショットを参照。
    • 今の1x1x1(縦x横x厚み)をどこにおけばよいでしょう。
    • まず、次の出現ブロックが2x1x1なので、現在の最上面にある2x1x1(緑)の隣に次のブロックを置きたいと考えます。
    • なので、現在の1x1x1のブロックは2x1x1の緑のブロックのうえ、手前と奥のどちらかになります。
    • どちらがよいか。2段目を見ると、手前3ブロックがうまっているのに消えていない、つまり奥側が開いているというのが分かります。(実際には回転しているので、そこが開いていることはもっと簡単に分かります)
    • 奥側に現在のブロック1x1x1をおいておけば、次のブロックで現在の最上面(緑の2x1x1の板)を消した際に、奥にある空白に1x1x1が入ってそこで連鎖が起きる!
    • グレーだと予想がまだスキル不足でこんなに簡単には連鎖を実現できないのですが、カラーブロックがつみ上がってピンチになった時こそ、こういう風に連鎖を考えるようにしています。

IMG_0107.PNG

ほかにもnantanさんからは、「一定のペースで消すことを心がければ、スピードが上がって来ても大丈夫」「20万点をコンスタントに出せれば、30万点台はすぐそこ」といろいろとアドバイス頂きました!

師匠!これからもついていきます!

PS. ブログタイトル変更しました。やっぱり3GSは欲しい。

アプリ開発雑記[11]:新しいiPhone App向け広告で0.5円/インプレッション

アプリ開発がすっかり止まってるのですが、興味深いサービスを見つけたので一つご紹介いたします。

「0.5円/インプレッションのiPhone App向け広告」!
http://iphone.trafficgate.net/site_tour3.html

インプレッションというのは、広告の表示のことをさす言葉だそうです。つまり、アプリを起動さえしてもらえれば、広告収入が得られるという訳です。Google Adsenseのようにクリックをしてもらう必要もなく、他のアフィリエイトのように商品を購入してもらう必要もない。

アプリ開発者の方々には、一攫千金は無理でも小遣いくらい稼ごうとお考えの方は多いはず。わたしもそんな夢見る一人・・・。しかしながら、実は今まで広告が表示されるiPhoneアプリを使っていて、クリックしたことは一度もないので、無料アプリ公開しても広告で収入を得るのは無理だなーと思ってました。ちょっと興味深いですね。毎日継続して起動してもらえるようなアプリを作るといいんじゃないでしょうか。体重管理アプリとか、TODO管理とか(すでにあるのでもちろんやりませんが)。