実行環境の構築
KIKAGAKU では、基本的な実行環境として Google Colaboratory というサービスを採用しています。その Google Colaboratory の環境構築方法と手持ちの PC でも作業を行えるように、ローカルでの環境構築方法を Windows と Mac の 2 つの OS で紹介します。まだ実行環境の構築が終わっていない方は、必ず本章を参考に次のチュートリアルからスムーズに学べるように整えておきましょう。
また、KIKAGAKU ではプログラミング言語 Python を使用するのですが、数ある言語の中でも Python を選択した理由についても本章で説明します。
本章の構成
- Python の特徴
- Google Colaboratory の基本
- Windows の環境構築
- Mac の環境構築
Python の特徴
プログラミング言語には、Python 以外にも C 言語や Java、Ruby、R のように様々なものがあります。それぞれの言語がすべての用途に適しているわけではなく、しばしば用途によって得手不得手があります。
KIKAGAKU では Python というプログラミング言語を扱います。その理由は、Python はデータ解析・機械学習のためのライブラリが充実しており、データ解析や機械学習の分野で最も使われている言語だからです。また、Web アプリケーションフレームワークの開発も活発で、データ解析だけでなく Web サービス開発まで同じ言語で統一して行える点も魅力です。
さらには、初学者にとっても学びやすい言語です。 初学者がプログラミングを学び始めるときにつまづきがちな難しい概念が他の言語と比べ多くなく、入門しやすい言語といえます。
まとめると、Python には
- データ解析や機械学習によく使われている
- Web アプリケーションの開発などでもよく使われている
- 初学者がはじめやすい言語
のような魅力があります。
Google Colaboratory の基本
Google Colaboratory(以下 Colab )は、クラウド上で Jupyter Notebook 環境を提供する Google のウェブサービスです。Jupyter Notebook はブラウザ上で主に以下のようなことが可能なオープンソースのウェブアプリケーションであり、データ分析の現場や研究、教育などで広く用いられています。
- プログラムの実行と結果の確認
- Markdown と呼ばれる文章を記述するためのマークアップ言語を使った、メモや解説などの記述の追加
Colab では無料で GPU も使用することができますが、そのランタイムは最大 12 時間で消えてしまうため、長時間を要する処理などは別途環境を用意する必要があります。しかし、学び初めのうちは、数分から数時間程度で終わる処理がほとんどであるため、気にする必要はありませんが、本格的に使っていく場合は有料のクラウドサービスを利用するなどして、環境を整えるようにしましょう。
以降では、その基本的な使い方を説明します。
Colab を開く
まずは以下の URL にアクセスして、ブラウザで Google を開き、ご自身のアカウントにログインしてください。
ログインが完了したら、下記に沿って、Google Drive のページに移動します。Google Drive とはファイルなどを保存することのできるオンラインストレージサービスになります。
Google Drive の右上にある「新規」ボタンをクリックし、下記の手順に沿って、Google Colaboratory を使用できるようにアプリの追加を行います。
これで Google Drive から Colab を使用することができるようになりました。Google Drive 内に作業フォルダを作業して、資料をアップロードしましょう。フォルダの作成やファイルのアップロードを行うためには画面上で右クリックすると、選択肢が表示されます。
「新しいフォルダ」を選択し、『KIKAGAKU』という名前を付けましょう。
「Google Colaboratory」をクリックすると、
上記の画面が出てきていれば環境構築完了です。作成されたノートブックをサーバーと接続するためには「接続」をクリックしていただくとプログラミングを開始できる状態になります。
非常に簡単に実行環境を整えることができました。KIKAGAKU では、基本的に Colab の使用を前提としていますのでここまでの動作を確認しておいてください。
本資料の活用方法
Colab 上ではコードの実行、メモの記入などを行うことができます。本資料の活用は下記の使用方法を推奨します。
- 最初はコードの意味がわからなくても資料を写経する
- コードの実行結果を確認しながら、それぞれのコードの意味を理解する
- 気になった点など、振り返り目的でメモを取る
- 一度学んだ内容も繰り返しプログラミングし、内容の理解を確認する
資料を読むだけではなく、実際にコードを実行し、その実行結果を確認することにより、より理解が深まります。実際にプログラミングし、自身の理解度の確認をしつつ、プログラミングスキルを身に付けていきましょう。
Colab の基本的な使い方
Colab 上の Jupyter Notebook を以降、単にノートブックと呼びます。
ノートブックは、複数のセルと呼ばれるブロックを持つことができます。 新しいノートブックを作った直後では、何も書かれていないセルが一つだけ存在している状態になっています。 セルの内側のどこかをクリックすると、そのセルを選択することができます。
セルには、コードセルとテキストセルの 2 種類があります。コードセルは Python のコードを書き込み、実行するためのセルであり、テキストセルは、Markdown 形式で文章を書くためのセルです。
それぞれのセルタイプについてもう少し詳しく説明をします。
コードセル
コードセルは、Python のコードを書き込み、実行することができるセルです。 実行するには、コードセルを選択した状態で、Ctrl + Enter
または Shift + Enter
を押します。 試しに、下のセルを選択して、Shift + Enter
を押してみてください。
print('Hello world!!')
すぐ下に、Hello world! という文字列が表示されました。上のセルに書き込まれているのは Python のコードで、与えられた文字列を表示する関数である print()
に、'Hello world!'
という文字列を渡しています。これを実行したため、その結果が下に表示されています。
プログラミング言語の Python については、Chainer チュートリアルの 2.Python 入門 を参考にしてください。
テキストセル
テキストセルでは、Markdown 形式で記述された文章を扱います。試しに新しいセルを追加して、ショートカットキー Ctrl + M → M
を入力するとテキストセルの編集モードになり、Markdown 形式で文章を装飾するための、先程までは表示されていなかった記号が見えるようになります。
その状態で Shift + Enter
を押してみましょう。元の文章の表示に戻ります。
Colab から Google Drive を使う
Google Drive を Colab で開いたノートブックから利用することができます。ノートブック中でコードを実行して作成したファイルなどを保存したり、逆に Google Drive 上に保存されているデータを読み込んだりすることができます。
Colab 上のノートブックから Google Drive を使うには、Colab 専用のツールを使って、/content/drive
というパスに現在ログイン中の Google アカウントが持っている Google Drive のスペースをマウントします。
from google.colab import drive
drive.mount('/content/drive')
このノートブックを Colab で開いてから初めて上のコードセルを実行した場合は、以下のようなメッセージが表示されます。
指示に従って表示されている URL へアクセスしてください。すると、「アカウントの選択」と書かれたページに飛び、すでにログイン済みの場合はログイン中の Google アカウントのアイコンやメールアドレスが表示されています。利用したいアカウントをクリックして、次に進んで下さい。すると次に、Google Drive File Stream が Google アカウントへのアクセスをリクエストしています
と書かれたページに飛びます。
右下に「許可」と書かれたボタンが見えます。 こちらをクリックしてください。 すると以下のように認証コードが記載されたページへ移動します。
(この画像では認証コード部分をぼかしています)
このコードを選択してコピーするか、右側にあるアイコンをクリックしてコピーしてください。
元のノートブックへ戻り、Enter your authorization code:
というメッセージの下にある空欄に、先程コピーした認証コードを貼り付けて、Enter キーを押してください。
Mounted at /content/drive と表示されたら、準備は完了です。以下のセルを実行して、自分の Google Drive が Colab からアクセス可能になっていることを確認してください。
# 'My Drive'の表記が出ていればマウントがうまく行われています。
!ls 'drive/'
上のセルで実行しているのは Python のコードではありません。Jupyter Notebook では、コードセル中で !
が先頭に付いている行は特別に解釈されます。!ls
は、次に続くディレクトリの中にあるファイルまたはディレクトリの一覧を表示せよ、という意味です(ls
はシェルコマンドの 1 つです。)。
KIKAGAKU では、基本的に使用する CSV ファイルなどはノートブックと接続しているサーバーに直接ファイルをアップロードする方法を取りますが、ファイルを Google Drive 内に保存し、そのファイルを使用したい方はこちらの方法でファイルの操作を行ってください。
GPU を使用する
Colab では GPU を無料で使用することができます。初期設定では GPU を使用しない設定となっているため、GPU を使用する場合は設定を変更する必要があります。
GPU を使用する場合は、画面上部のタブの中の 「Runtime」 (または「ランタイム」) をクリックし、「Change runtime type」 (または「ランタイムのタイプを変更」)を選択します。
そして、下記の画像の様に 「Hardware accelerator」 (または「ハードウェアアクセラレータ」)を GPU に変更します。
これで Colab 上で GPU を使用できるようになりました。
Colab の便利なショートカット
最後に作業効率を向上するためにショートカットコマンドを紹介します。Colab を使用中に、セルのタイプの変更やセルの複製・追加などの操作をする場合は、メニューから該当する項目を選ぶ方法以外に、キーボードショートカットを利用する方法もあります。
下記によく使うショートカットキーをまとめておきます。多くのショートカットキーは二段階になっており、まず Ctrl + M
を押してから、それぞれの機能によって異なるコマンドを入力する形になっています。
説明 | コマンド |
---|---|
Markdownモードへ変更 | Ctrl + M → M |
Codeモードへ変更 | Ctrl + M → Y |
セルを上に追加 | Ctrl + M → A |
セルを下に追加 | Ctrl + M → B |
セルのコピー | Ctrl + M → C |
セルの貼り付け | Ctrl + M → V |
セルの消去 | Ctrl + M → D |
また、重要なショートカットキーとして、下記の 2 つがあります。これらのコマンドは Ctrl + M
を入力する必要はありません。
- セルの実行 :
Shift + Enter
- コメントアウト :
Ctrl + /
コメントアウトとは、コード中で実行時に無視したい行やコメントを選択した状態で行う操作です。 Python では、#
の後に続く文字列は全て、コメントとして無視され、実行時に評価されることはありません。
これで、プラットフォーム内で扱う基本的な Colab の準備は完了しました。
Windows の環境構築
お手元のコンピュータを使用して、学習を進める方は本節の内容を確認して下さい。Mac を使用している方は次節の Mac の環境構築を参照して下さい。
Anaconda のインストール
まず、こちらのページにアクセスして Anaconda のディストリビューションファイルをダウンロードして、インストールを行います。
Anaconda は Python の環境構築から解析に必要な基本的なパッケージのインストールまで一気に済ませてくれる無料のオープンソースディストリビューションです。
ダウンロード後、ファイルをダブルクリックしてインストールを実行していきます。表示される内容に従って「Next」をクリックして行くとインストールが開始されます。
オプションの設定を行います。
2 つ目のチェックボックスにをクリックし、Install をクリックし、インストールを開始します。
インストールの完了には数分かかる場合があります。
インストールが完了したら、Next をクリックしていき、最後の Finish のボタンをクリックして、インストールを終了します。
Jupyter Notebook の起動方法
インストールが正常に完了している場合はデスクトップの左下の検索窓から Jupyter Notebook
と検索し、クリックしてください。
クリックすると下記のような Jupyter Notebook 環境が Web ブラウザ上に展開されます。
正常にインストールされているか動作を確認します。
Desktop
フォルダを選択します。
画面左上の New
のボタンをクリックし、一番上の Python3
をクリックします。
ノートブックが正常に開かれれば下記のような画面になります。
本資料では基本的にこちらのノートブックを用いて、学習を行っていきます。
最後に講義に必要なパッケージがインストールされているか確認します。
下記のコードをセル内に貼り付け Shift + Enter
を実行し、エラー文が表示されなければ正常にインストールが完了しています。
import numpy
import matplotlib
import pandas
import sklearn
終了する際にはデスクトップ下部に表示されている Jupyter Notebook のアプリケーションのアイコンをクリックし、下記画像のようなターミナルの画面上で Ctr + c
で終了します。
Mac の環境構築
OS が Mac のコンピュータを使用する方はこちらの解説を読み進め、環境構築を行って下さい。
Homebrew のインストール
Mac で Python の開発環境を構築する場合、Homebrew と呼ばれるパッケージマネージャーが有名です。まずはこちらのリンクを開いた後、下記画像のように画面上部にあるリンクをコピーします。
ターミナルを開きます。ターミナルとは Mac の OS 上で動く CUI シェルソフトになります。コマンドにより PC を操作することのできるソフトという認識を持っていれば問題ありません。Finder の左上の「移動」から「アプリケーション」を開いてください。以下の手順で進めて行くとターミナルを開くことができます。
Homebrew をインストールしていきます。ターミナルに先程コピーしたスクリプトを貼り付けて、Enter
を押すとコマンドが実行されます。
途中、下記のような画面になります。
処理を続けるなら Return
と書いてあるので、Return (Enter)
を押します。
続いて、パスワードの入力を求められるので、Mac で設定しているパスワードを入力してください。このとき「文字を入力しても反映されない」と疑問に思われる方が多いのですが、文字を入力して Enter
を押すと正しく実行されます。
5 分ほど待つとインストールが完了します。
HomeBrew が正しくインストールされているか確認
Homebrew が正しくインストールされているか確認してみましょう。
ターミナルで以下のコマンドを実行してください。
$ which brew
この which
というコマンドは、使用するコマンドの元となるプログラムがどこに保存されているかを調べるためのコマンドですが、これにより、インストールされていなければ何も保存されていないので、空白の文字が返ってきて、インストールが完了していれば、保存されている場所が返ってきます。
このように、/usr/local/bin/brew
という場所に保存されていることが確認できたので、無事インストールできていることがわかります。これで何も返ってこなかった方は正しくインストールできていないので、上記の手順をもう一度繰り返してください。
Python3 をインストール
Python には 2 系・ 3 系と呼ばれるバージョンの違いがあり、Mac にはデフォルトで Python2 系がインストールされているのですが、KIKAGAKUでは最新バージョンである Python3 系を使用します。
以下のコマンドを実行すると Python のインストールが完了します。
$ brew install python3
Python が正しくインストールができているか確認しましょう。
$ which python3
このように、Python が保存されている場所が返ってきたため、インストールが完了できています。
また、python
を Homebrew 経由でインストールした際に pip3
というツールも一緒にインストールされていると思います。
$ which pip3
この pip3
とは、Python の中で使用するパッケージと呼ばれる便利なツールを管理してくれるためのツールです。
brew と pip の違い
brew
も pip3
も何かをインストールするために使うものですが「Mac 内で使用するソフトウェアのインストールには brew」を使用し、「Python 内で使用するパッケージのインストールには pip」を使用します。
brew
が Mac 内で使用する python3
や pip3
などのソフトウェアを管理し、pip3
がそのpython
で使用するためのパッケージを管理するといった構造になっています。
Homebrew
|- python
|- pip3
|- Pythonで使用するパッケージ...
|- etc...
そのため解析を行う際に他のパッケージをインストールする際には基本的には pip3
を用います。
Python のバージョンを確認
Python をインストールしたのですが、その時々によって、インストールされるバージョンが変わります(基本的には最新のバージョンをインストールするため)。
インストールしたバージョンを確認しておきましょう。
$ python3 --version
帰ってきたバージョン情報の数字が 3
から始まっていれば問題ありません。
機械学習で使用する Python のパッケージをインストール
NumPy
や Matplotlib
、Pandas
などは、KIKAGAKU で使用するパッケージになるため、下記のコマンドをそれぞれ実行し、必要なパッケージをインストールしておきましょう(それぞれのパッケージの使用方法などは Chainer チュートリアルで紹介しています)。
$ pip3 install numpy
$ pip3 install matplotlib
$ pip3 install pandas
$ pip3 install scikit-learn
$ pip3 install seaborn
数分程度でインストールが完了します。
また Python を実行できる環境である Jupyter Notebook のインストールを行いましょう。
初心者がプログラムの動作確認をするときは、この Jupyter Notebook を使用します。
Jupyter Notebook のインストールには下記のコマンドをターミナルで実行すれば完了です。
$ pip3 install jupyter
Jupyter Notebook の起動方法
ターミナル上で下記のコマンドを実行します。
$ cd Desktop
$ jupyter notebook
ブラウザが起動し、下記の画像のようなページが開かれていれば Jupyter Notebook が正常にインストールされ、起動が完了しています。
ノートブックの立ち上げには、画面左上の New
のボタンをクリックし、一番上の Python3
をクリックします。
ノートブックが正常に開かれれば下記のような画面になります。
最後に KIKAGAKU に必要なパッケージがインストールされているか確認します。
下記のコードをセル内に貼り付け Shift + Enter
を実行し、エラー文が表示されなければ正常にインストールが完了しています。
import numpy
import matplotlib
import pandas
import sklearn
Jupyter Notebook を停止する際にはターミナル上で Ctr + c
を入力します。