製造業界のデータサイエンティストの実際

f:id:data_scientist:20180810134536j:plain

 

さてさて、第一回でどんなことを書こうかなと考えていたわけですが、今回は製造業界のデータサイエンティストという立ち位置で、Kaggleの課題でイメージするようなデータサイエンティストの仕事と製造業でのギャップみたいなものを論じてみようかと思います。

 

製造業でのデータ活用

データサイエンティストという単語をネットで探すと、どうしてもマーケティング関連の話題をとっかかりとした記事が多くなります。業界的にデータを根拠にビジネスの方向性を決めていくという文化が浸透していたというのもありますが、ハイプサイクルでいうところの黎明期はWeb関連サービスのログデータ分析から始まっていったというのも原因の一つでしょう。BtoCで蓄積されたデータを用いているので、学ぶ側にとってもイメージしやすいというのもあるような気がします。

 

製造業でデータサイエンティストとしての活躍を目指すとなると、インダストリー4.0のコンセプト実現へと行き着くのではないでしょうか。インダストリー4.0は製造業のデジタル化・コンピューター化を目指すコンセプトのことですが、ビッグデータという言葉が徐々に浸透し始めたあたりにAIブームの波に乗りながら業界のトッププレイヤー達が成果を発表していきました。追いつけ追い越せと他の企業も追従しますが、思うように成果が出ずに諦めてしまったところも多いと聞きます。(AI黎明期は、とりあえずディープラーニングすればいいと考えていた人がものすごく多かったというのも理由にありそうですが。。。)

 

というのも、ものづくりの現場になると、そもそもどんなデータを統計的に扱ったら有用そうか?という問いに答えるのも結構難しい問題です。データ自体は工場のセンサデータや設計の実験データ、品質管理の測定データからサプライチェーンの記録などなど、情報の"量"という意味ではたくさんあるのかもしれませんが、統計的に扱うにはデータの形式がバラバラだったり、神Excelでまとめられた資料だったり、そもそも何を意味するデータなのかを理解するのが難しかったりと、いまだに初心者向けサンプルになりそうなデータを見かけたことがありません。

 

こういった構造化されていない「ダークデータ」が一般的であるうえに、モノを作ることを本懐とする製造業でのデータ活用はIT企業(デジタルネイティブ企業)ほど重要性が高くないというのも足枷になります。製造業でデータ活用を進めようとなると「売上の増加」というよりも「コストの減少」を軸に考えることが多くなるので現状維持を望む層に対しては投資回収の説明力が低くなりがちですし、生産設備のデータがデジタル形式ですぐに利用できなかったりという技術的な課題もあって、より状況は困難になります。

 

とはいえ、そもそも論としてデータサイエンティストの実際というのは、分析するまでのデータ集め~データクレンジングが大半ですから、製造業に身を置いている私からは他業種の実際が見えていないだけなのかもしれません。今ではAIやビッグデータの活用も十分に浸透してきたこともあり、様々な分野でのデータ活用が進んでいますから、その業種独特の事情というものは細分化を続けているのではないかとも思います。

 

製造業でデータサイエンスをする(「AIを使いたいから課題を探す」という視点から)

AIとはなんぞや?みたいなセミナーで様々な業種の方とお話させて頂いたこともあるのですが「社長がAIを使えと言ったから」というような話をよく耳にします。本来、データ活用に限らず課題解決という視点で考えれば、「AIを使いたいから課題を探す」というようなやり方はナンセンスなものです。とはいえブームに乗り遅れるのも嫌だし、勘・経験・度胸(KKD)で進めてしまっている多くの現状を見てきた熟練者からすれば一縷の望みをかけてすがるのも無理のない話です。

 

まあ、そんな事情を嘆くこともできるのですが、データを扱う人間である以上、それでもやっぱり何らかの課題を解決するインサイトを見つけなければならないわけです。葛藤はありながらも、結局情勢に流されて「AIを使いたいから課題を探す」という始め方をしてしまった場合、一例ですが以下のようなことが起こります。

 

・そもそもどこにどんなデータがあるのかがわからない
・設計をAIにやらせろという無茶振りの雨が襲いかかる
・Kaggleに代表されるAIコンペで出てくるようなデータはそうそう見かけることはない。

 

そもそもどこにどんなデータがあるのかがわからない

トップダウンでAIを旗印に始めるとこのようなことが起こります。AIプロジェクトといった形で進められることが多いようですが、参加するメンバーはシステム部門や管理部門が主だったところになるので、実際のデータがどんなものなのかを知っている人はあまり多くありません。メーカーも企業体の一つですから、人事や経理など業種を問わず活用できる分野もあります。その場合も現実問題として部門間の壁がありますし、データがありそうだからといって人事データや経理データを見せろとはなかなか言えないので、結局は自分が所属している部門or近しい部門にあるデータをあさり始めることでしょう。

 

こういった社内全体もしくは部門全体を見渡すようなプロジェクトとして始まる場合は、正直AIやデータサイエンスという言葉は一旦頭から抜いて、気持ち的には社内コンサルとして振る舞った方が結果的に上手くいきました。色々と意見や課題を収集するのですが、結局のところRPAだったり単純なシステム導入だったり、はたまた手順書の改善だったり、AIとは関係ない方法で解決できる問題の方が多いからです。

 

設計をAIにやらせろという無茶振りの雨が襲いかかる

今でこそ私の身近にはこのようなことを言う人はいなくなりましたが、最初の頃はそれはもう色々なところから期待がかかっていたものです(汗)。ディープラーニングドラえもんを作れると考えてるんじゃないかとも思えるような層に対して、何故ディープラーニングで設計ができないのかを説明する資料を作るという作業が発生したりもします。まあ、このレベルまでいくと、説明資料というよりも高校生への勉強会資料というようなマインドで資料を作れるので、ある意味ストレスが軽減されたような気がします。

 

Kaggleに代表されるAIコンペで出てくるようなデータはそうそう見かけることはない。

Kaggleではデータが課題と同時に与えられるので、欠損値の処理や特徴量エンジニアリング、モデリングなど、機械学習の一連の流れを学ぶには最高の題材だと思います。データサイエンティストを目指す上では無視できない学習教材ですが、実務となるとこの「データ収集」の時点で結構躓きます。。。

 

この辺は現実課題と実データの隔たりといいますか、解決すべき課題に関連するデータは単にcsvで無秩序に吐き出されているだけだったり、データ形式が統一されていなかったりで、分析以前のゴミデータだったりする場合が大半を占めます。データベースとして比較的綺麗に収集されているデータは、そのデータに関連して解決するべき課題が見つからなかったりと、課題はあるけどデータが無い、データはあるけど課題は無いといった現象が頻発します。私の場合は運よくマッチするものを見つけられたので助かったのですが、このへんは「AIを使いたいから課題を探す」の視点で始めたら直面するだろう悲劇として覚悟をしておいた方がいいかもしれません。

 


色々語りましたが、"データ"サイエンティストである以上、データサイエンティストが求めるデータはいったいどういうものなのかを知ってもらう活動は不可欠でしょう。そもそも「分析に必要なデータ」といっても、企業や工場ごとに手掛ける製品(素材系、加工組立系、装置系)、業態(大量生産、多品種少量生産)、サプライチェーンにおける立ち位置(川上、川中、川下)などにより、内容はまったく違ったものとなりますので、必要なデータがどういうものかを上司にも分かりやすいよう翻訳して伝えるのも仕事のひとつになります。特に製造系だと職人気質でモノを見ないと満足できない人たちは多いので(こう言いましたが、携わる以上データサイエンティストでもきちんとモノは見たほうがいいです)、データと現場・現物・現実の捉え方のギャップみたいなものは埋めていく必要があると思います。