【初心者向け】機械学習の流れが簡単にわかる！ソースコード付き

TAG
AI linear-regression pandas scikit-learn データ解析・予測マシンラーニング大竹栞
UPDATE
2020/07/17

はじめに
住宅価格を予測してみる
データ解析・予測の流れ（ざっくり）
①データを取得する
- ■相関係数のお話
②訓練用データと検証用データに分ける
③学習用アルゴリズムを呼び出す
④訓練用データを学習用アルゴリズムで機械学習
⑤正解スコアを検証する
⑥実際に予測する
まとめ
最後につぶやき
関連記事
関連ニュース

はじめに

みなさん、こんにちは！

昨今、RPAをすでに導入し、業務の自動化・効率化に成功している企業様も増えている状況で、さらなる自動化・効率化を推し進めるため、「自社もAI導入したい」という企業様が多くなっております。

ただ、AIについて調べてみるとすぐに分かるのが

AI（人工知能）は広義の概念で、機械学習とディープラーニングを内包している。

参考：ITソリューション塾人工知能研修資料

機械学習の中でも、学習の種類が大きく３つある。

参考：ITソリューション塾人工知能研修資料

というところまでは理解しやすいところなのですが、そこから具体的にどのような処理をして実現するのか、を理解するハードルがグッと高い印象を持っている人も多いのではないでしょうか。

そこで今回は、

機械学習の簡単な流れを理解する　ところにフォーカスし、

簡単な事例を用いて、基本的な機械学習を実装する流れをソースコード付きで説明したいと思います。

住宅価格を予測してみる

今回は、「地域の住宅情報をもとに、住宅価格を予測する」という例で説明したいと思います。

そして、機械学習の中でも、正解のデータを与えて学習させる「教師あり学習」から、データの予測に使う線形回帰を利用します。

参考：ITソリューション塾人工知能研修資料

■補足コメント

機械学習のオープンソースライブラリである「#scikit-learn」を使用します。

とてもありがたいことに「回帰」「分類」「クラスタリング」「次元削減」それぞれのサンプルもあるので、本記事で理解を深めたあとに、参考に見てみるとおもしろいかと思います。

データ解析・予測の流れ（ざっくり）

実装の流れは、大きく以下の６ステップです。

①データを取得する

②訓練用データと検証用データに分ける

③学習用アルゴリズムを呼び出す

④訓練用データを学習用アルゴリズムで機械学習

⑤正解スコアを検証する

⑥実際に予測する

これだけだと、あまりイメージがわかないですよね。

それぞれを、実際のソースコードと合わせてみていきたいと思います。

■補足コメント

プログラムを実行するツールとして、機械学習ではおなじみのJupyter Notebookを利用します。

Jupyter Notebook (ジュピター・ノートブック)：ブラウザ上でプログラムを実行し、実行結果を記録できるツールです。

①データを取得する

今回は、サンプルデータとして利用することができる「ボストンの住宅情報」を取得して、変数（bostonDataSet）にセットします。

いったん、ボストン住宅情報データの中身の説明を確認すると、

α.予測するためのデータ（地域の情報「住居の平均部屋数」「低所得者の割合」etc）と
β.予測したいデータ「住宅価格」

で構成されていることが分かります。

ここで、「α.予測するためのデータ」（地域の情報）を、X軸にセットします。

y軸には、「β.予測したいデータ」（住宅価格）をセットします。

「α.予測するためのデータ」（地域の情報）と、「β.予測したいデータ」（住宅価格）を結合させるとこのような状態です。

■相関係数のお話

相関係数は、2つの変数の間にある関係性の強弱を測る指標で、-1 ～ 1 の間の実数で表現されます。

つまり、相関係数が -1 に近いほど負の相関が強く、1 に近いほど正の相関が強いことを意味します。

今回のデータセットでは、「LSTAT」（低所得者の割合）という説明変数が、目的変数である「MEDV」（住宅価格）と最も相関が大きいことがわかります。

今回は、α.目的変数「MEDV」（住宅価格）と相関が大きい β.説明変数「LSTAT」（低所得者の割合）を使って、予測を行うことにします。

低所得者の割合が大きいほど、住宅価格が低い（= 負の相関）想定ですが、具体的に低所得者がどのくらいの割合のときに、住宅価格がいくらになるのでしょうか？それを予測していきましょう。

②訓練用データと検証用データに分ける

機械学習では、低所得者の割合が10%のときの住宅価格は？というような未知のデータを予測するために、訓練用データと検証用データに分けます。

訓練用データ	予測するための情報とその答えを学習するためのデータ	教科書で学ぶイメージ
検証用データ	機械学習を行って予測した結果の答え合わせするためのデータ（＝アルゴリズムの正確さが測れる）	問題集を解くイメージ

※なお、統計学用語でこれを「交差検証（クロスバリデーション）」といいます。