自動識別処理の急速な発展について - Webの世界で虹を架ける

私は長年、画像理解の壮大な挑戦に興奮してきました。画像理解の定義はコンピュータビジョンの研究者と同じくらいたくさんありますが、人間だけでなく画像の説明文も自動的に生成できるシステムができれば、目標は達成できたと思います。

今年の夏、米マイクロソフト・リサーチ社の約12人のインターンと研究者が、「やってみる」と、自動画像キャプション・ソフトウェア・システムを開発することに決めた。物体の分類と検出のためのディープラーニングにおけるすべての進歩を考慮して,信頼できるシステムを構築する時が来たと考えた。次に、システムからの出力例を示します。どのキャプションが個人によって生成され、どのキャプションがシステムによって生成されたと思いますか?

プロジェクト自体は驚くほど楽しかった。;私たちの多くにとって、ここ数年で仕事をしてきた中で一番楽しかった。チームは、コンピュータビジョン、自然言語、音声、機械翻訳、機械学習の専門知識を持つ研究者を含む複数の専門分野に分かれていた。

このプロジェクトはすばらしいものだっただけでなく、プレプリントされた結果を誇りに思う。キャプションシステムは、ピクセルから(例。)英語まで、機械翻訳システムと考えることができます。機械翻訳の専門家は、BLEUメトリックを使用して、システムの出力を人間の翻訳と比較します。BLEUはキャプションを長さのチャンク(1~4語)に分割し、システムと人間の翻訳の間の重なりの量を測定します。また、短いシステムキャプションにもペナルティが適用されます。

達成可能な最高BLEUスコアを理解するために,著者らは一つの手書きキャプション(仮定の「システム」として)対他の四つを試験した。BLEUスコアに関して言えば、私たちは実際に人間を打ち負かしているのです!著者らのシステムは21.05%のBLEUスコアを達成したが,ヒト「システム」は19.32%のスコアであった。

さて、この超人的なBLEUスコアを巨大な塩の固まりと一緒に取るべきです。BLEUには、機械翻訳コミュニティでよく知られている多くの制限があります。また、METEORメトリックを使用してテストしてみましたが、人間のパフォーマンスをやや下回っています(20.71%対24.07%)。

本当のゴールドスタンダードは、ブラインドテストを行い、どのキャプションが良いかを人々に尋ねることです(先ほどの質問のように)。AmazonのMechanical Turkを使って、キャプションのペアを比較してもらった。テスト画像の23.3%では、システムキャプションは人間のキャプションと同じかそれ以上だと考えられていた。

チームはその結果にかなり興奮している。人間のイメージ理解のレベルに近づくことさえ、非常に難しい問題です。難しい例を以下に示します。

第一に、システムは、画像を、物体である可能性が高い多数の領域に分割する(エッジに基づく)。次に,ディープニューラルネットワークを各領域に適用し,関連する視覚情報を捕捉する高レベル特徴ベクトルを生成する。次に,その特徴ベクトルをニューラルネットワークへの入力とし,関連するキャプションに現れる単語を生成するように訓練する。このトレーニングでは、各領域に各単語を手動で割り当てることはありません。;代わりに、(「複数インスタンスの学習」です)というトリックを使って、それぞれの単語に最も合う領域をニューラルネットワークに割り出させます。

その結果、特定の順序ではなく、イメージ内で検出される単語のバッグが生成されます。どの地域でどの単語が検出されたかを調べるのは興味深い。

次に、言語モデルを使用して、単語を意味のある文にまとめます。言語モデルについて聞いたことがあるかもしれません:彼らはテキストのトレーニングコーパス(シェイクスピアは)を取り、そのコーパス(例えば、新しい偽シェークスピア)を「次のように聞こえます。」新しいテキストを生成します。私たちがしているのは、新しいキャプションを作るために、キャプション言語モデルを訓練することです。画像から検出された単語の「黒板」を作成することによって、言語モデルに「ステアリングホイール」を追加します。言語モデルはこれらの単語を生成するように奨励されており、そうすることで「黒板」からそれぞれの単語を消去します。これにより、システムは同じ単語を何度も繰り返すことができなくなります(マルコヴィッチ問題と呼んでいます)。

単語検出器と言語モデルは両方とも局所的であり、それぞれの単語を生成するために画像の1つのセグメントだけを見て、生成するために一度に1つの単語だけを考慮することを意味する。画像に対するキャプションの全体的な意味や適切さの感覚がない。これを解決するために,著者らは,どのキャプションがどの画像に最も適しているかを知るために,ディープラーニングを用いて類似性モデルを作成した。この類似性モデル(文全体の特徴や)を用いて再ランクし,最終的な回答を生成する。

もちろん、これはシステムの概要説明です。詳細については、プリプリントを参照してください。

多くの研究活動
あるアイデアが「空中で」で、同時に複数のグループによって発明されることもあります。確かに、画像キャプションについてはそうだ。2014年以前には、ディープラーニングを利用しない自動イメージキャプションシステムに対する以前の試みがあった。たとえば、MidgeやBabyTalkなどです。私たちは確かにこれらの以前のシステムの経験から利益を得た。

Baidu/UCLA: http://arxiv.org/pdf/1410.1090v1.pdf

Berkeley: http://arxiv.org/abs/1411.4389

Google: http://googleresearch.blogspot.com/2014/11/a-picture-is-worth-thousand-coherent.html

Stanford: http://cs.stanford.edu/people/karpathy/deepimagesent/

University of Toronto: http://arxiv.org/pdf/1411.2539v1.pdf

今年は、ディープラーニングに基づくイメージキャプションシステムがカンブリアで爆発的に普及した。まるで多くのグループがCVPR2015会議(11月14日金曜日を納期とする)に論文を提出することを目指しているかのようです。私が知っている論文 (Andrej Karpathyと私の共著者から)

このような全体的な進歩は目を見張るものがある。イメージキャプショニングは魅力的で重要な問題であり、私はこれらのアプローチの長所と短所をよりよく理解したい。(リカレントニューラルネットワークやLSTMモデルを使った人もいた。)。フィールドとして、標準化されたテストセット(COCOなど)と標準的な測定基準に合意できれば、私たちはその目標に向かって前進を続け、人間だけでなく画像の記述的キャプションを自動的に生成できるシステムを作ります。この夏の作業と他の作業の結果は、私たちが正しい方向に進んでいることを示しています。

Rapid Progress in Automatic Image Captioning | Machine Learning Blog