【現状のAIでできること、できないこと・3】特徴量を見つける

main image

今回もAIモデルの構築で7割から8割の工数を費やす前処理作業について解説したい。初回のコラムで、「AIは役立つデータがないと動かない。経験と記憶から成功パターンを見つけた人の知能が必要なのだ」と説明した。ある意味、AIモデルの構築とは、エースプレーヤーの自動化といえる。ベテラン社員の知見を、新入社員でも活用することができるようになる。ただし、その知見が暗黙知で形式知化できていないケースも多い。今回の事例は、人が見ているデータはあるものの、そのデータはその人にしか判らないものだったケースである。

イメージイラスト

事例はネットワーク機器のリアルタイムでの故障予知である。その企業にはネットワーク機器の故障を予知できるベテラン社員のA氏がいた。A氏は「あの機器が壊れるから事前に発注しておくのです」という。そして、そのネットワーク機器は、A氏の言う通りに壊れるのである。「なぜ分かるのですか」と尋ねると、「音が悪いから」という。A氏は他の人に分からない音なるものを判断材料にして、故障を検知していた。

そこで、ネットワーク機器の音を収録して故障との相関関係を見つけようとした。しかし、故障と相関性の高い音を見つけることはできなかった。A氏の言う音は存在しなかったのである。

では、データが見つからない場合はどうするのか。データを探せばいいのである。具体的には、ネットワーク機器にセンサを設置して、全てのデータをリアルタイムに可視化すれば、故障の予知ができるのではないか。例えば、全ての機器のトラフィックが上がっている時に、上がっていない機器があれば、それが故障するのではないかという仮説だ。

そこで、CPUの使用率、メモリの使用率、機器の温度などをセンサで取得して機器に関係するデータ全てを特徴量として相関関係を評価することにした。0.1秒ごとのデータをモニタリングした分析が奏功して故障と相関性の高い特徴量が見つかった。

こうして、ネットワーク機器のリアルタイムな故障予知アルゴリズムが完成できた。その後、アルゴリズムが故障を予知すると担当者にアラートのメールを送られる自動化システムになった。このようにデータがない場合は、データを見つけることが重要なのである。

今回の事例は、ネットワーク機器の全データをモニタリングすることで故障の予兆を発見することに成功したが、そもそも異常回数が絶対的に少なく学習できないことも多い。そのようなケースでは、サンプルサイズが少ない異常データではなく、正常データを元にしてモデルを構築することになる。例えば、ネットワーク全体の依存関係をモデル化し、そのモデルからの逸脱具合から、距離の遠いものを異常状態として検知するのである。

距離の遠さの判断は、人が経験則から判定することになる。異常検知では、異常データを利用しないでモデル構築を行うことも視野に入れる必要がある。

執筆者プロフィール

イメージ画像

酒巻隆治(サカマキ リュウジ)

The ROOM4D 代表取締役

専門は人間が環境に残す各種行動・購買ログの解析。慶応義塾大学、同大学院で人工知能を専攻。東京大学大学院で博士号を取得。KDDI、楽天技術研究所、ドリコムを経てDATUM STUDIOを設立、売却を経験。2019年8月1日、The ROOM4Dを設立。

こちらの記事は「週刊BCN+」に掲載(2022/6/24 )しております。

PAGE TOP