データ分析 2020年度 ex06 †[edit]
この課題そのものには点数は付きませんし,提出も不要です.しかし,あとでこの内容に関する小テストを行います.そのできや点数には影響しますので,必ず取り組んでください.質問は Teams 上でどうぞ.
この課題についての解説動画: Data2020-06-movie2
スプレッドシートとデータの準備
- ex06mpi.csv を自分の PC にダウンロードしてください
- Google Classroom 上のこの課題のスプレッドシートにこの授業で説明した手順でインポートしてください.
「ファイル」>「インポート」>「アップロード」>(CSVファイルをアップロード)>「新しいシートを挿入する」
元データの解釈
- 「数学」,「物理」,「情報」の平均,標準偏差を計算しましょう
注意: 平均と標準偏差を求める関数については,ex03参照
- それぞれのヒストグラムを描きましょう
- 学籍番号「う06」のひとは,3科目とも80点ですが,どの科目の成績が「良い」と言えるか,平均,標準偏差,ヒストグラムから考えましょう
データの正規化
- CSVファイルをインポートしたシートに,「数学(正規化)」,「物理(正規化)」,「情報(正規化)」という3つの列を作り,それぞれの生徒の「数学」,「物理」,「情報」の点数を正規化した値を求める計算式を入れましょう.
データ \( x_1, x_2, \dots , x_N \) の平均値が \( \bar{x} \) で,標準偏差が \( s \) だったとすると,
\[ z_n = \frac{(x_n - \bar{x})}{s}\qquad (n = 1, 2, \dots , N)
\]
として得られるデータ \( z_1, z_2, \dots , z_N \) の平均は ,標準偏差は \( 1 \) になるのでした.
注意: スプレッドシートで上記の式を計算する場合,平均や標準偏差の値を毎回計算式で計算するのは無駄ですね.「シート1」にすでに算出した値がありますから,そのセルの値を利用しましょう('$'を付けて絶対参照にする).
- 正規化した値は,小数点以下の表示桁数が3になるように設定しておいてください
正規化したデータの解釈
- 「数学(正規化)」,「物理(正規化)」,「情報(正規化)」それぞれのヒストグラムを描きましょう
- 横軸の範囲は -4 から 4 までにそろえておくとよいでしょう
- パケットサイズ等はヒストグラムを解釈しやすいように修正しましょう
- 次のものをノート等にメモしておきましょう
- 学籍番号「う06」のひとの「数学(正規化)」,「物理(正規化)」,「情報(正規化)」の値
- それらの値から,この生徒の「数学」「物理」「情報」の点数はどの科目が「良い」と言えそうか
この課題には点数は付きません.提出も不要です.ですが,あとでこの内容に関する小テストを行いますので,必ず取り組んでください.質問は Teams 上でどうぞ.
以下のリンク先の Colab notebook を開いて実行してください.
ex06note3.ipynb
Colab notebook の扱い方がわからないひとは, ex02課題B へ.