【現状のAIでできること、できないこと・4】ディープラーニングに適したモデル

main image

ディープラーニングが機械学習のトレンドだと認識しているケースも多いといえる。筆者は、先日も予測モデルを作る際にディープラーニングをリクエストされた。また、別案件でディープラーニングは使わないと話したら、がっかりした表情になったケースもあった。実は、ディープラーニングに向いているケースとそうでないケースがある。

ディープラーニングは、データが100万件程度なければ動かない。データが少ない場合、他のアルゴリズムを利用した方が良いのだ。ディープラーニングが適している分野には、文字や画像に関するモデルづくりがある。テキストと画像はデータを増やせるからだ。画像の場合、1枚の画像は1枚だが、ピクセル単位にしてタグを付けたり、2個飛ばしの関係性とか3個飛ばしの関係性、横や縦の関係性など、いくらでもデータを増やすことができるのである。文字の場合も同様で、単語でくくったり、文字で区切ったり、前後の関係で区切ったりしてデータを増やすことができる。

例えば、ある企業がプレスリリースする文書を校正するAIモデルをつくる場合、文書の文字は1000文字くらいで十分なのだ。形態素解析で単語にバラして、結びつきの因果をつくれば良い。かかり結びの確率モデルで、稀な確率の箇所を色で示せば、その部分が校正チェックの対象になるということだ。人はAIが「確率は稀である」と示した部分だけをチェックすれば良いので、作業効率は大幅にアップされる。

このようなモデルで重要なのが辞書づくりである。一般的な辞書ではなく、校正の対象となる文書専用の辞書だ。辞書づくりは泥臭い大変時間のかかる作業で、試行錯誤の繰り返しとなる。ただ、誤差を吸収してくれる辞書をつくることができれば、文書を校正するモデルは長く使い続けることができる。現状では、ディープラーニングに向いているものとそうでないものがあることを知っておくことが重要となる。

AIはデータがないと動かない。まず、データがあってAIが活用できるということだ。そのデータとは、過去の経験から成功のパターンを見つけた人が見ているものである。経験はデータの数であり、その人が何を見ているのかが分かれば、ビジネスに役に立つAIをつくることができる。

最近では、とにかくビックデータにAIを活用すれば、何かしらの相関が導き出せる製品もある。モデル構築の7~8割の工数を占める前処理を自動化できるというものだ。ただ、現時点でこういった製品が万能でないのも事実である。当面の間、データサイエンティストによる地道な前処理作業の善し悪しがモデル構築に及ぼす影響は大きいだろう。

執筆者プロフィール

イメージ画像

酒巻隆治(サカマキ リュウジ)

The ROOM4D 代表取締役

専門は人間が環境に残す各種行動・購買ログの解析。慶応義塾大学、同大学院で人工知能を専攻。東京大学大学院で博士号を取得。KDDI、楽天技術研究所、ドリコムを経てDATUM STUDIOを設立、売却を経験。2019年8月1日、The ROOM4Dを設立。

こちらの記事は「週刊BCN+」に掲載(2022/7/22 )しております。

PAGE TOP