こちらのコンテンツは最新の情報ではない可能性があります。無料で学べる最新のコンテンツは Python&機械学習入門コース 脱ブラックボックスコース をぜひご利用ください。

データサイエンスと社会への応用

本章では、データ解析がどのようなもので、どのように活用されているのかを事例を通して理解し、これから学んでいく内容の全体像を掴みます。
次章以降の実践を学ぶために全体像を理解する大事なステップになります。

本章の構成

  • データサイエンスとは
  • データ解析の活用方法
  • データ解析が活用されている事例

データサイエンスとは?

データサイエンスとは一言でどのような役割を指すかと言われると難しいですが、与えられたデータに基づいて知見を見出し、次の行動にその知見を活かすことを行います。そして、このデータサイエンスを駆使する人をデータサイエンティストと呼びます。

01_01

参考:データサイエンティスト協会

要約をすると、ビジネスの中に存在する課題を把握し、課題に対しデータ解析を行い、解決への活路を見つけ、その解決策を継続的に利用可能な形に変えていくことまでが必要なスキルとして提示されています。最初からこれらすべての力を習得することは飛躍がありますが、日々の取り組みの中でそれぞれの要素を学んだり、足りない要素を持っている人とチームで行動して取り組んでいくことで問題ありません。

データサイエンスは数学やプログラミングと縁の深いものですが、最初は簡単な計算や Excel での実装でも問題なく進めることができます。実際に社会人でも高度な解析を日常の仕事で取り入れている人は一部であり、多くの人は Excel を使用して仕事に取り組んでいます。だからこそ、Excel でも取り組むことができるデータ解析を把握しておくことは非常に重要です。その延長線上に、PythonR 言語といったプログラミング言語も組み合わせて、さらに深い解析が存在しており、こちらも研究で使用する場合には学んでおくと良いでしょう。

データ解析の活用方法

データ解析は社会で用いられていると述べましたが、実際にどのような場面で用いられているか具体的に紹介していきます。

データの集計

まず最も簡単でよく使われるものがデータの集計です。1000 人分のアンケート結果が渡されて、その結果をチームに共有するときに、1000 人分の用紙を同様に配るのではなく、その特徴を捉えてひと目で確認できるように集計しておくと便利です。そのときに、生活でも馴染みのある平均といった観点で見ることもありますし、少し先には標準偏差といったものを用いることがあります。これらを伝えることで、全体としてどういう状況であるかを簡単に理解することができます。

データの可視化

集計した値で確認することも便利ですが、相対的な比較なども行うときにより直感的に便利な方法としてデータの可視化があります。図に示すような円グラフや棒グラフが代表的であり、簡単にグラフを作ることが可能です。その他にも、データの範囲を知ることができる箱ひげ図や、関係性を知ることができる散布図、変化を知ることができる折れ線グラフなどがあり、主張したいメッセージに合わせて使用するグラフを変えて用います。

01_02

データを予測する

集計や可視化にとどまらず、最近では与えられた過去のデータの傾向に基づいて、次の値を予測することも積極的に行われています。最初からうまく予測できないため、入力値に対する目標値の両方を与えて、入出力間の関係を学習させるといった方法が一般的に取られます。ここでいう入力値は、何らかの目的で集められた情報であり、目標値とはそれに対する答えです。この考え方が機械学習として最近では大きく注目を集めるようになってきています。

データを予測

機械学習の中ではディープラーニングという新しい手法も登場しており、これまでは扱うことが難しかった画像や自然言語(文章などのこと)もうまく扱えるようになってきています。生物は目ができたときに爆発的な進化を遂げたと言われているカンブリア爆発が、画像処理技術の発展とともに、これから起きるのではないかと期待されています。

データ解析が活用されている事例

データ解析の詳しい実装方法を知る前に、実社会ではどのようにデータ解析を活用しているかを知っておきましょう。ここでは、製造業小売医療の 3 つを例にあげて紹介します。

製造業

製造業で活用されている事例としては、異常検知があります。製造業のラインにカメラを置いておき、そのカメラで部品に傷がついているかどうかといった判定を行います。この作業はこれまで人手によって行われていましたが、その人手によってつけられた答えを用いて、機械学習ベースで検出ができるようになっています。画像を用いる場合もあれば、機械の振動をベースに判断していくこともあります。経年劣化を検出することで、メンテナンスの時期を予測できたりと、これまで経験と勘に頼っていた領域に対して有効な対処法が提案され始めています。

製造業 異常検知

また、製造業では部品を作る以外にも、その部品を作るための在庫管理があります。この在庫を多く抱えすぎるとコストになる一方で、在庫が少なすぎると、急な発注の際に部品を作ることが出来ないリスクがあります。しかも、部品を作るための材料は種類も多く、それらすべての状況を複合的に考えながら在庫を適切に管理できなければいけません。人間が頭で考えて管理できる量には限界があり、逆にコンピュータであれば、こういった複合的なことも考えながら進めることが出来ます。在庫管理では、組合せ最適化がよく用いられますが、最近では、機械学習ベースで需要の予測も組み合わせた在庫管理も提案されはじめ、需要に先回りした在庫管理ができるようになってきています。

小売

小売とはスーパーマーケットをイメージしてもらえるとわかりやすいと思います。コンビニエンスストアや、Web では Amazon や楽天です。まず小売業界で AI を活用されている事例となるとリコメンドが代表的です。どのような人にどのような商品をすすめると、効率よく購入してもらえるのかをリコメンドでは考えます。このリコメンドにはいくつかの方法がありますが、代表的な考え方としては、ユーザーアイテムを評価で紐付ける方法があります。0 番目のユーザーが 2 番目のアイテムを購入し、その点数が 5 点満点中 3 点であったというようにデータを取得し続けると、同じような商品を購入するユーザーが見つかります。これは類似度という概念があり、数学的な話になるのですが、口紅を買うユーザーと日焼け止めを買うユーザーは似ていて、車を買うユーザーとは似ていないといった具合です。似ているユーザーが購入した商品は購入する確率が高いだろうという前提でおすすめの商品をピックアップしていきます。

また、最近では、ディープラーニングの登場により画像をベースとした AI も多く開発され、スーパーマーケットにカメラを設置して、来店者がどのような商品の前に立ち止まっているかなども計測できるようになってきました。これまでは POS データと呼ばれる購入したデータしか残っておらず、どのような年齢層の人がどのような商品に興味を持っていたかといった購入前のプロセスは検討できませんでした。それが最近では技術的に可能となり、小売への AI 活用の熱も高まっています。Amazon Go などの無人店舗もそういった技術を利用しています。

01_03

医療

医療の領域もレントゲン写真や MRI 検査の画像が多くデータとして保存されており、また、医師がラベルを付けることができるため、機械学習ベースで取り組みやすい環境が整っています。製造業で紹介した異常検知と同じ手法が用いられています。MRI 画像の場合、500 枚ほどの画像を 5~10 分程度で検査を行わないといけないこともあり、その画像内で注目すべきポイントを抽出することができれば、医師の判断の支援になります。最終的な意思決定は医師自身が行うことになり、AI がすべてを代替することは難しいのですが、限られた時間内で最大限の成果を出すための支援を AI により行えるようになっています。

01_04

データサイエンスという言葉一つとっても色々な業界や内容を含んでいることがわかりました。人工知能や機械学習、ディープラーニングといった本プラットフォームで最も基礎となる部分について、次章で詳しくお伝えします。

shareアイコン