- AIと統計学の関係について知りたい
- 統計学の何を知ればいいのかわからない
- AIエンジニアとして統計の知識をつけたい
このような方に向けて記事を書きます。この記事を読めば、統計の内容が理解ができて、AI機械学習にどのように活用されているのかが理解ができます。
結論として、AIを理解するためには、「回帰」「クラスタリング」「決定木」「アソシエーション分析」あたりの概要は理解しておきましょう。
なぜ統計が必要なのか?
モノがインターネットにつながり、活用すべきデータが増えます。そのデータ化の社会、きれいに数式にデータを当てはめるのは、不可能です。
ある程度推測すること、つまりデータ分析には予測が必要です。そして予測やグルーピングには答えがありません。MECEのように答えが明確で綺麗に分けられるわけでは無いです。
そこで、予測のために統計が必要になります。複数のデータから予測を立てるということです。AIは、人工知能である「Artificial intelligence」略で、統計学をもとにしたプログラムにより、データに対して分析や分類、予測を行います。
ですから、統計とAIには密接な関係が関わっています。
主な統計手法
では、統計について何を知っておけば良いのでしょうか。
統計手法は下記2つに分かれます。
・教師あり学習
・教師なし学習
教師あり学習とは、その名の通り元々データがあります。ですから見本があります。見本となるデータを元に未来を予測したり、分類の用途に使われることが多いです。例えば画像認識で活用されます。具体的には、iPhoneで自分の画像が認識されて、自分の顔を含む写真で検索したり、顔認証でログイン出来たりするのも、見本となる「教師あり」データがあり、統計を元にして判別しています。
教師なし学習は、もともとの参考となるデータがない分析手法です。なのでデータのグループ分けや、情報の特徴を掴む要約などに利用されます。
下記説明します。
教師あり学習
教師あり学習に関しては、代表的なところとして、具体的に下記2つの方法があります。
・回帰分析(単回帰分析・重回帰分析)
・決定木分析
回帰分析
回帰分析は、単回帰分析と重回帰分析の2つがあります。
単回帰分析は2つの変数の関係、重回帰分析は2つにかぎらず、複数の要素から関連性を明確にする分析方法です。
例えばスーパーマーケットの売り上げは、「チラシの配布数」「気温」「曜日」で決まる回帰式を定めるとすれば、過去のデータから関係式(回帰式)を定めることができます。
数式の組み合わせかつ、数値のバランスがルール化する回帰式を定められたら、データの予測ができるようになります。
決定木分析
決定木分析に関しては、条件となる要素を当て込んでいき、何の要素がゴールに影響しているかを判別することができます。要素の「あり」「なし」の影響度を見ていきます。
例えばマーケティングの購買分析などにおいて、何の要素が購買に影響しているかなどの分析にも活用できます。
アイスクリームを購入している人
→ 休日なのか平日なのか
→ 晴れなのか雨なのか
上記の例でいうと、
・休日かつ晴れ
・休日かつ雨
・平日かつ晴れ
・平日かつ雨
の4つになりますよね。決定木における分岐により、どれくらいの割合が購入につながるかがわかるので、売上の予測分析にも活用できます。
教師なし学習
教師なし学習はもともとのデータがなく判別していくものです。
教師なし学習に関しては、正解が特にないので、グループ分けや情報の予約などに使われます。
クラスタリング(k平均法)
データを、似たモノ同士に分類する手法の一つです。
例えば、k個のクラスタに分けるとすれば、
1)k個の重心をとりグルーピングする
2)グルーピングの中で重心を取る
3)定めた重心からグルーピングを調整する
微調整が不要になるまで、2)と3)を繰り返します。
そうすると、分類ができクラスタリングが行われる形です。それぞれのクラスタにおいて特徴がわかれば、マーケティングにも活かすことが可能です。
活用方法として、例えばマーケティングにおいて顧客をクラスタ分けしたとして、グループの中で「安さを重視」「高級感を重視」のグループがそれぞれ分かれば、アプローチを変えることで売上や顧客満足度が高まりやすくなります。
アソシエーション分析
アソシエーション分析は、関連性を見つけます。マーケティングでいうところのクロスセルやアップセルに使える分析です。同じ購買行動の中で買われた商品などを分析しておすすめする手法です。
アマゾンの「これを買っている方はこれにも興味があります」と言ったようなレコメンドが当てはまります。
アソシエーションは、インターネットのおすすめ商品のレコメンドや、店舗の陳列やセット割引の商品選定などに活かされます。
このように、統計は機械学習と密接に関連しています。
統計においては、データの分類や予測、ゴールまでの決定要素の分析やグループ化などがあり、予測から対策につなげる改善活動や、自動化に役立たせることが可能です。
まとめ
いかがでしたか?
統計がAIのベースとなっており、世の中の自動化において役に立っていることをイメージしていただけたのではないでしょうか。AIエンジニアを目指す、AIを自身の仕事に活かしていくのであれば、統計の概要についても理解が必要です。
AIによる自動化は、「人間の仕事が減る…」と恐れる人もいますが、うまく付き合って効率化し、自分の活動を活性化させていきましょう。