#author("2025-01-08T15:37:04+09:00;2024-12-18T14:39:17+09:00","default:takataka","takataka") #author("2025-01-10T12:56:37+09:00","default:takataka","takataka") * データ分析 2024年度 レポート課題 [#n46efc31] //&color(red){''工事中''}; #contentsx ** 大事な事柄 [#note] - レポート課題はAとBの2段階に分かれており,それぞれに提出期限が設定されています -- 課題Aの期限: 0110金 15:00 -- 課題Bの期限: 0117金 15:00 - ''ひとによって対象とすべきデータが異なります.自分がどのデータを使うべきかは, Classroom の課題Aの「データ割当表」というスプレッドシートで確認できます.'' - 課題Aを期限までに提出しなかった場合,原則として課題Bは採点しません ** データ [#data] ひとによって対象とすべきデータが異なります. *** データ1 「年齢階級別給与額」 [#data1] 政府統計の総合窓口(e-Stat) https://www.e-stat.go.jp/ から「賃金構造基本統計調査」という統計調査のデータを入手し,年齢と給与額の関係を回帰分析で調べよう. ''■ データ入手法'' + 「賃金構造基本統計調査」へ https://www.e-stat.go.jp/stat-search/files?page=1&toukei=00450091&tstat=000001011429 + 「■令和5年賃金構造基本統計調査」の中の「一般労働者」の中の「産業大分類」をクリック + 「表番号1」の「EXCEL閲覧用」をクリックして Excel ファイル (1-1-1)aa1n11.xlsx を入手.入手したファイルを Excel で開く必要はない + この課題のスプレッドシートへインポート.Excel ファイル中のすべてのシートがインポートされるが,使うのは「産業計」シートのみなので,それ以外は削除してもよい ''■ データの扱い方'' -「産業計」シートの 「1,000人以上」(常用労働者数1,000人以上の企業)の「年齢」列(列L)の値を説明変数とし,「所定内給与額」列(列Q)の値を被説明変数とします.ただし,このデータでは,「大学卒」と「大学院卒」という2通りのデータで回帰分析してもらいます. -- 大学卒: 区分が「男女計 大学」の箇所(男女別のデータもあるので注意)のうち,年齢階級が「20~24歳」から「55~59歳」まで -- 大学院卒: 上記のすぐ下の区分が「大学院」の箇所のうち,年齢階級が「20~24歳」から「55~59歳」まで -- 「60~64歳」以上の階級を省く理由は,これらを含めて散布図を描いてみると分かります.多くの企業で60-65歳が定年であり,これ以上の年齢階級では賃金額が大きく下がっている(再雇用・再就職などによる)ケースが多いため,これ以上の階級を含めると直線を当てはめるのが適切でなくなってしまいます. - 課題Aで散布図を描く際は,大学卒と大学院卒で別々の図を描けばokです ''■ 注意'' - このデータがどんなものかの詳細は,厚生労働省のページへ: https://www.mhlw.go.jp/toukei/list/chinginkouzou.html -- 所定内給与額?きまって支給する現金給与額? → [[賃金構造基本統計調査で使用されている主な用語の説明>https://www.mhlw.go.jp/toukei/itiran/roudou/chingin/yougo-01.html#:~:text=%E5%85%88%E9%A0%AD%E3%81%B8%E6%88%BB%E3%82%8B-,14%20%E3%81%8D%E3%81%BE%E3%81%A3%E3%81%A6%E6%94%AF%E7%B5%A6%E3%81%99%E3%82%8B%E7%8F%BE%E9%87%91%E7%B5%A6%E4%B8%8E%E9%A1%8D,%E5%89%8D%E3%81%AE%E9%A1%8D%E3%81%A7%E3%81%82%E3%82%8B%E3%80%82]] - このデータを用いる場合,次のことをやること: ++ 次の式の右辺の積分を計算して &mathjax{a, b, x_1, x_2}; の式で表す(手計算で). #mathjax{{ E(a, b, x_1, x_2) = 12\int_{x_1}^{x_2}(ax+b)dx }} ++ 提出するスプレッドシートの適当な箇所に,次の2つのものを計算する式を書く --- 大学卒のデータから求めた &mathjax{a, b}; の値を用いた &mathjax{E(a, b, 22, 60)}; の値 --- 大学院卒のデータから求めた &mathjax{a, b}; の値を用いた &mathjax{E(a, b, 24, 60)}; の値 ++ レポートでは,手計算で求めた式や上記の2つの値の意味を説明しつつ,2つの値を比較して考察する *** データ2 「極域の海氷域面積の変化」 [#data2] 気象庁のサイト https://www.jma.go.jp/jma/index.html から1979年から2023年までの極域の海氷域面積のデータを入手して回帰分析しよう ''■ データ入手法'' + 「海氷域面積の長期変化傾向(全球)」へ https://www.data.jma.go.jp/gmd/kaiyou/shindan/a_1/series_global/series_global.html + そのページのグラフの下の「グラフのデータ(単位:万平方キロメートル) からファイルを入手 -- 入手可能なデータの拡張子が .csv ではなく .txt となっています.ダウンロードする際は,CSV のときと同様に,ブラウザで右クリックして「リンク先を別名で保存」等しましょう + データをこの課題のスプレッドシートへインポート.入手したファイルの拡張子は .txt ですが,ファイルの中身は CSV の形式で書かれているので, いつもと同じ様にインポートできます ''■ データの扱い方'' - 「年」をそのまま説明変数とすると,値が大きくて扱いづらいところがあります.「2000年からの経過年数」を表す列を作り,その値を説明変数としましょう(2000年なら 0,1999年なら -1, 2001 年なら 1) - 被説明変数には,「北極域年最小値」を用いましょう (単位はデータのリンク先のところに記されています) 余談: &mathjax{0 = ax+b}; を解くと,北極域の海氷域面積の最小値が 0 になってしまう(完全に海氷が消滅する)年の推定値が出せますね. *** データ3 「50m走 vs 立ち幅跳び」 [#data3] //&color(red){''工事中''}; 2024年度「データ分析」のサイトから体力測定のデータを入手して回帰分析しよう ''■ データ入手法'' 以下のリンク先の CSV ファイルを入手してこの課題のスプレッドシートへインポートしましょう https://www-tlab.math.ryukoku.ac.jp/~takataka/course/Data/physical.csv ''■ データの扱い方'' - 「50m走[s]」を説明変数,「立ち幅跳び[m]」を被説明変数としましょう. - これらのデータは,小中学生の体力測定の結果を表します. ** 課題A [#kadaiA] ''レポート課題A'' データを入手して回帰分析しよう - この課題Aで分析した結果をもとに課題Bでレポートを仕上げてもらいます - 「データ」に記された指示にしたがってデータを入手し,Google Classroom 上のこの課題のスプレッドシートにインポートしましょう.&color(red){''ひとによって対象とすべきデータが異なります.''}; - 指示された値を説明変数・被説明変数として,次のことをやりましょう ++ 回帰直線の傾きと切片を計算する(セルに正しい数式を書くこと) ++ 相関係数・決定係数を計算する(セルに正しい数式を書くこと) ++ 説明変数を横軸,被説明変数を縦軸とする散布図を描く. ++ 散布図にトレンドラインを追加する. - ここで作成したグラフを課題Bでドキュメントに貼り付けてもらいます. -- そのつもりで,グラフの各種設定(横軸縦軸の範囲や軸タイトル等)をきちんとしましょう. -- ''課題Bでは,ここで提出したものを元にしてレポートを書くことになります.この課題の提出後の修正はできないことに注意.'' -- ''課題Bのドキュメントに課題Aで作ったグラフを貼り付けるためには,課題Aが返却されている必要があるかもしれません.&color(red){課題Aは締め切り後数日で採点して返却します.返却される前に課題Aを自分で取り下げてしまうと高橋が採点できません.注意してください.};'' - 扱うデータによっては追加の計算が求められている場合があるので,指示にしたがう 上記の要件を満たしている限りは,グラフを見やすくする工夫をいろいろしてくれて構いません. ** 課題B [#kadaiB] &color(red){''工事中''}; //&color(red){''工事中''}; ''レポート課題B'' 分析した内容をレポートにまとめよう - Google Classroom 上のこの課題のドキュメントに必要な情報を書き込んでレポートに仕上げましょう. - 課題Aの注意事項をよく読みましょう *** レポートの Google ドキュメントの作り方 [#a413424a] &color(red){''工事中''}; //&color(red){''工事中''}; + Google Classroom で「レポート課題B」を開く + 右側に「Googleドキュメント」のアイコンがあるので,クリックして中身を編集 -- レポート課題Aのグラフをこのドキュメントに貼り付ける操作は,高橋がレポート課題Aの採点をして返却してからでないとできないかもしれません. + 完成したら提出する(期限内なら,取り下げて再編集可能) *** 内容に関する注意 [#w6952ee6] 次のような内容を含めること.[[ex12練習X2>../ex12#X2]] も参考になるかもしれません. - 一番上に,適切な形式でタイトルを付け(タイトルを何とするかは自分でよく考えてね),その下に学籍番号と名前を書いてください'' - どんなデータを対象としてどんな分析をしたのか - 分析の結果 -- レポート課題Aで作成したグラフ(グラフをコピーするのではなく,当該グラフへのリンクとすること) -- 分析によって得られた数値や式 - 結果の考察 「レポート」ですので,考察としては,データと分析結果から科学的・論理的に導かれることだけを書きましょう.感想や憶測を書くのはやめましょう. 読者がレポートだけを読んで理解できるようにすること.例えば,読者が課題Aのスプレッドシートを見ないと分からないような記述はNG. *** 書き方に関する注意 [#wc05aed5] - 適切なタイトルを付けること - 氏名と学籍番号を記すこと - 単に図や数値をならべるだけでなく,文章を使って記述すること - このレポートは,「あなたが学んだ・調べたことを,その内容を詳しく知っている科目担当教員に伝える」ために書くものではありません.「あなたが学んだ・調べたことを,その内容を(あまり)知らないひとに向けて説明する」つもりで書いてください.「回帰分析とは何か」を一から詳細に説明する必要はありません(ある程度知っている前提でok). 図の縦軸や横軸が何を表すかわかるようにする,数値や式がどのような意味を持つのか説明する等,必要な情報が伝わるようにしましょう. *** レポートに数式を書きたいひと向けの補足 [#gbdb3d38] ''数式をきれいに書くことはこのレポート課題の主題ではありませんので,単純に英数字を並べて数式を表すだけでも(分かるように書いてもらえれば)okです''. しかし,せっかくだからきれいに書きたいというひとは,以下の情報を参考にするとよいでしょう. Google ドキュメントの機能で数式を書く > メニューから「挿入」>「計算式」と選んで数式を書く.適当にググると詳しい書き方が分かるでしょう.[[「google ドキュメント 数式」でGoogle検索>https://www.google.com/search?q=google+%E3%83%89%E3%82%AD%E3%83%A5%E3%83%A1%E3%83%B3%E3%83%88+%E6%95%B0%E5%BC%8F]] < //**おまけ [#omake] //&color(red){''工事中''}; //[[おまけ05 自分で見つけたデータを回帰分析してみよう>../omake#omake05]]