製造業における機械学習のテーマ選定 - 製造業界のデータサイエンティスト奮闘記

f:id:data_scientist:20190516104312j:plain
過去の記事でもテーマ選定に関する内容については軽く触れているのですが、今回はより現実的に、基本的な機械学習の仕組みを理解した人の間での議論という観点でのテーマ選定について論じてみたいと思います。
https://data-scientist.hatenadiary.jp/entry/2018/08/08/231702

どんなテーマならイケるか？

人間が何かをやりたいと思えばそれ自体がAIのテーマになりうるので、勝算というとなかなか分類ができません。失敗しなければ成功なので、失敗のパターンを考えてみましょう。個人的には3パターンあると考えていて、「技術的要因」「データ収集が困難」「社内の政治的要因」があると思っています。

技術的要因

「技術的要因」の方は単純で、世の中にそもそも解決できるような技術が存在しないケースです。Googleで調べてもちっとも似たような事例が出てこなければ（かすりもしなければ）概ねこのパターンではないでしょうか。私の経験だと、図面をAIに書かせろと持ち込まれた事例がありますが、ここでは「機械学習の仕組みを理解している人の間での議論」なので今回は外しましょう。

データ収集が困難

製造業で異常検知の話題は多いですが、これが案外難しい。技術的に難しいというよりも、肝心の異常データがなかなか手に入らないという性質上、データそのものが存在しないことも少なくありません。未知の異常などは、正常状態との乖離を検出しなければならないため、どうしても精度は低くなりがちです。少しでも多くデータを得ようとすると時間がかかってしまうという点で、データ収集に時間がかかることが課題と言い換えることができます。
※未知は仕方ないと割り切り、既知の不良種別だけをラベリングする。製品の重要特性値を予測する問題に置き換える。等の工夫はできます。

データ収集に時間がかかるケースとしては下記のようなものがあります。

異常データが少ないため、出てくるまで長期的に待たなければならない。
冬は調子が良いけど夏は機嫌が悪い設備などがあったりして、実は季節性のあるデータだった。
改善が頻繁で、ラインが変更されると特性が微妙に変わり、再度データを収集するのに時間がかかる。
生産準備中で、次の試作が1ヶ月後

もう少し突っ込んで考えると、原理的に測定が困難なパラメータが予測精度に起因しているケースもありますね。マーケティング系で例えると、消費者の心理状態とかです。
製造業でのケースというとすぐには思いつきません。。。メーカーはすでに並々ならぬモノの測定能力を有しているはずなので、大抵の測りたいものはその気になれば測れてしまうような気がします。強度とかの必ず破壊が伴うようなデータでしょうか。目的が要因分析やモデル構築であれば、モデル構築用にサンプルを破壊検査したりしてデータ収集できそうですので、測定したいけど原理的に出来ないというのはなかなか思いつきません。

社内の政治的要因

「社内の政治的要因」は要するにリソース（お金）の問題です。センサを付ければデータを収集できるけれど、

測定に工数がかかる
測定器が高い
タクトタイムが1sec→3secになる
工程変更に客先承認が必要
工程設計の担当箇所が複数部門間で複雑に絡み合っている
そもそもそれに取り組むコストメリットが少ない

等々、出来なかないけど現実的に無理というパターンです。データが有ると思っていたのに構造化されたデータではなかった場合などは、構造化されたデータを取得するために、上記の問題が立ちふさがるケースもあります。

他には、社内の人材ではDeep Learningはできるけど強化学習はできないといったケースでしょうか。もっとも、この場合は世の中に技術は存在しているので外注するなり育成するなりできるはずなのでお金の問題に分類できます。
また、Deep Learning関連で言えば、画像をラベリングしたり、異常な領域を塗りつぶしたりするためにマンパワーが必要になってきます。これもDeep Learningのエンジニアが直接やる必要も無い作業なので、アルバイトなり外注なりで対応する場合はやっぱりリソースの問題になってきます。

例：ベタ塗り画像をリアルな風景画に変換。学習データ作成の苦労がしのばれます。

まとめると以下のようになります。

技術的要因
- 技術が存在しない

データ収集が困難
- 異常検知系で、異常データが少ない
- 収集までに時間がかかる
- 原理的に測定が困難

社内の政治的要因
- ヒト/モノ/カネのどれかが足りない

感想

あとは感想レベルですが、「これ系のテーマは大抵厳しい」という点で言えば、製造業としてのドメインとは関係のない、人事や経理など管理部門系のタスクを機械学習に置き換えようとする試みは、協力者を得られづらいという点で難しさが増すような気がします。
異常検知系は異常データが少なかったり未知の異常が出てくることもあるので、テーマとして難易度は比較的高いと言えます。とはいえ結局のところ、イケてるイケてないの判断はケースバイケースとしか言いようがなく、幅広くテーマを募った後にデータ収集難易度・リソース・ROIのバランスで優先順位を付けて取り組むのが妥当、というありきたりな結論になります。