データ分析 2021年度 ex09†
課題A†
回帰分析入門(3) - 方法を理解したうえでもう一度表計算ソフトに頼ってやってみよう -
- Google Classroom 上のこの課題のスプレッドシートに以下の CSV ファイルをインポートしましょう
注意: たいていの場合,ブラウザは,ファイルを自分の PC の中にある自分用の「ダウンロード」という名前のディレクトリ/フォルダにダウンロードする設定になっています.ダウンロード先のディレクトリ/フォルダにすでに同名のファイルが存在していた場合,ブラウザが気をきかせて,「hoge.csv」という名前を勝手に「hoge (1).csv」とかに変えて保存することがあります.以下の二つのファイルは,以前にもダウンロードしたことがあるはずですので,そうなるかもしれません.ですが,中身は同じデータのはずです.「hoge (1).csv」みたいな名前のまま扱うのは混乱のもとですし超かっちょ悪いです.「ダウンロード」に存在している古い方を削除してからダウンロードし直しましょう.
- 「Sheet1」に,「気温」を横軸,「アイス売上数」を縦軸にとった散布図を描きましょう
- 横軸縦軸の範囲は ex07課題A と同じで
- トレンドラインも描きましょう.トレンドラインの設定時には,「ラベル」オプションのところをいじって回帰直線の式がグラフ中に表示されるようにし,さらに,「決定係数を表示する」にチェックを入れましょう
- グラフに表示される \( R^2 \) の値がその決定係数の値です.この値の意味は,あとの授業で解説します.値をメモしておきましょう.
- 「気温の平均」と「売上数の平均」と書かれたセルの下のセルに,それぞれの値を求める数式を入れましょう
- 「回帰直線の傾き」と書かれたセルの下のセルに,LINEST関数を用いた式を書いて,回帰係数(傾きと切片)の値を求めましょう.ただし,グラフと同様に,気温を説明変数,アイス売上数を被説明変数としてください.
- 「売上数予測値 [個]」と記されたセルの右のセルに,「気温の値 [度]」から売上数の予測値を計算する式を書きましょう.
- 気温 \( x \) の値をいろいろ変えて,売上数の予測値がどのように変化するか観察しましょう.特に,次のときの値をメモしておきましょう.
- 気温 10, 20, 30 度のとき
- 気温が平均値のとき(予測値はどんな値になってるだろう?)
- ex08gorigori.csv の最初のデータは,気温が 5.56 で売上数が 8 です.この値を手動でいじって,回帰分析の結果が,データ中に存在する 外れ値 (他と比べて極端に大きかったり小さかったりする値)の影響をどのように受けるか調べよう.
セルの値を書き換えて,回帰式やグラフがどのように変化するか観察してください.
- 最初のデータの売上数を 8 から 50, 100, 1000 に変えてみる
- 売上数を 8 に戻して,気温を 30, 50 に変えてみる
- 最後に (5.56, 8) に戻しておこう
課題B†
復習 - 回帰分析
気象庁のサイト https://www.jma.go.jp/jma/index.html から二酸化炭素濃度の年平均値のデータを入手して回帰分析しよう
この課題そのものには点数は付きませんが,あとでこの内容に関する小テストを行います.そのできや点数には影響しますので,必ず取り組んでください.質問は対面または Teams 上でどうぞ.
Step1 データの準備†
- 以下の入手先から CSV ファイルをダウンロードしましょう
入手先: https://ds.data.jma.go.jp/ghg/kanshi/obs/co2_yearave.html の「数値データ」のところ
- Google Classroom 上のこの課題のスプレッドシートに上記の CSV ファイルをインポートしましょう
注意:
- 注釈に記されているように,2011年の値は本当は特別扱いが必要かもしれませんが,この課題では気にせずそのまま扱って構いません
- 注釈に記されているように,2020年の値は速報値なので他と同じように扱うべきではないかもしれませんが,この課題では気にせずそのまま扱って構いません
- ppm という単位の意味はこちらをどうぞ: Wikipedia https://ja.wikipedia.org/wiki/Ppm
Step2 回帰分析†
「年」を説明変数,「二酸化炭素濃度の年平均値(綾里)[ppm]」を被説明変数として回帰分析しよう
- 「Sheet1」の適当な場所に,次のものを求める数式を書こう.数式だけではどれが何の数値かわからないので,表の形にして適当な項目名を入れよう
- LINEST関数で求めた回帰直線の傾きと切片
- 相関係数とその2乗の値
- 求めた値を使って,「説明変数の値」に対する被説明変数の「予測値」を求める数式を書こう
- 「Sheet1」に散布図とトレンドラインを描きましょう.横軸の範囲は「年」の範囲に合わせ,縦軸の範囲は [0, 500] としましょう.
グラフの他の設定は自分で決めてください.
注意: この課題では,表示される値の有効数字は気にしなくても構いませんが,ちゃんと考えて表示桁数を調節したいひとは,次のようにするとよいでしょう
- Google Sheets 上部の「.0」とか「.00」のボタンを押して,桁数を調節する
- 「表示形式」 > 「数字」 > 「指数」 とすると指数表記もできます.上記のボタンで桁数も調節可能
Step3 考察†
- 分析結果から,二酸化炭素濃度がどのような傾向にあるか, etc. を考えよう
- 求めた数値をメモしておこう(有効数字3桁でメモしておけばよいでしょう)
Moodle で Quiz を受験†
この科目のMoodleコース へ行って Quiz を受験しましょう.
開始時刻等は授業時間中にお知らせします.
次のことを次回の授業までに必ずやっておいてください
(1) ex10 の以下の Notebook を閲覧実行し動画を視聴してください
決定係数/データ分析における注意点
ex10notebookA.ipynb (GitHub) | Data2021-10-movie1 (24m)
(2) ex10課題A