AI（機械学習）で不良品や故障を削減するには - 製造業界のデータサイエンティスト奮闘記

f:id:data_scientist:20180821162151j:plain

製造業のミッションは欲しい仕様のモノを安く、欲しい数だけ、欲しい時に顧客に届けるということに尽きます。その目的達成のためにデータサイエンティストも活動するわけなんですが、活動と一括りに言っても、需要予測、特性予測、不良検知、設備保全などデータ活用の適用範囲は多岐に渡ります。今回はそのなかでも、不良を削減するというテーマについて掘り下げてみようかと思います。

それはAIでないと駄目なのか

いきなりデータサイエンティストの存在意義に疑問を投げかけるようで恐縮ですが、そもそもAIでやる必要があるのか？というのは結構切実な問題です。ロジカルシンキングを教えることもあるのですが、そこでは「課題設定が適切かをよく考えよう」と繰り返し話題に出しています。なぜその課題を解決しなければならないのか？本当の課題は別のところにあるのではないか？もっと根本的な課題が裏にあるのではないか？といったことです。

データ分析の格言に「Garbage in, garbage out (ゴミからはゴミしか生まれない。) 」という有名な言葉がありますが、それと同様に間違った課題からは間違った答えしか出てきません。データ分析以前に課題解決の方法論ですが、ビジネス上の価値を生み出すためには避けて通れない考え方です。

データ分析の手法をよく知っていることはもちろん大切ですが、それに捕らわれることなく幅広い視点から見ることも重要だと考えています。視野を広くするには課題自体に詳しくならなければならないわけで、先人の残したデータサイエンス以外の不良削減の方法論もきちんと学ぶべきでしょう。データサイエンティストという言葉もだいぶ浸透したことで、これからは業界ごとに特化した知識や発想も求められてきているため、データサイエンス以外でも課題を解決できるくらいを目指したいものです。

どういった課題で機械学習を使えるのか

不良を無くすという課題はものづくりにおける永遠のテーマとも言えるもので、AIが叫ばれるずっと以前の1950年代から統計的品質管理という方法論として存在してきました。それ以外の古典的な方法としては4Mやなぜなぜ分析、工場内の改善では5Sの徹底やQCサークルといったものがあります。生産段階においてはバラツキを抑えることしかできないケースばかりですが、上流で対処できるのであれば設計段階からFMEAで故障原因を潰し込んでロバスト設計することで、部品公差の幅を増やす（良品の幅を広くする）という考え方もあります。

このように不良を削減するという目的に対して多数の方法論がある中で、データの活用でアドバンテージを確保できる領域というと、生産工程から吐き出されたデータを用いた異常の原因究明や不良検知（歩留まりの向上）といった分野での活用が多いのではないかと思います。Kaggleでも自動車部品大手のBoschから、そのような不良検知の課題が出されていたので一つ紹介しましょう。

Bosch Production Line Performance | Kaggle

In this competition, Bosch is challenging Kagglers to predict internal failures using thousands of measurements and tests made for each component along the assembly line. This would enable Bosch to bring quality products at lower costs to the end user.

このコンペでは、組立工程で取得された各部品の数千の測定データと検査データを使用して、内部故障を予測することをBoschはKagglersに求めます。これにより、Boschは品質の高い製品をより低コストでエンドユーザーに提供することができます。

工程で取得されたデータを元に、良/不良を予測する課題ですね。データセットは学習用データ1,183,747件、テスト用データ1,183,748件、説明変数は3,105個ですが、製品ごとに工程が異なるため欠損値が多いです。投稿されたカーネル（プログラム）を覗いてみると、アルゴリズムは大人気のXGBoostが上位を占めていました。もちろん、特徴量の選択や違う工程を通った製品の扱い方など細かなテクニックが精度に効いてくるので一概に言えませんが、こういった良/不良の分類問題ではXGBoostにはお世話になりそうです。

この他にも、村田製作所は製造工程に関わる様々な生産データを収集し、不良品率の引き下げの取り組みをやっているそうで、収集データは生産装置の設定、材料の種類や状態、気温などのようです。（日経Big Data）

村田製作所の場合も30工程を経た3000項目くらいのデータで、データ量が多い上にビジネス上のインパクトもあるので腕が鳴るテーマではあります。とはいえ、ここまで大量かつ比較的に構造化されたデータを持っている企業はなかなか無いと思いますが、収集すべきデータの方向性としては参考になるでしょう。製造工程が長くなればそれだけデータ量も増えるので、ここら辺のデータのボリュームは対象とする製品によって変わってきます。

今回は不良検知という課題を取り上げたので、不良を判別するフラグと工程データが1セットになっているデータでの事例を紹介しました。設備保全になってくると時系列データを扱う必要があるケースも多いので、機会があれば別の記事で紹介したいと思っています。