Rにやらせて楽しよう — データの可視化と下ごしらえ 2021 北海道大学
概要
-
講師: 岩嵜航 (東北大学生命科学研究科)
-
責任教員: 中川真一 (北海道大学薬学研究院)
-
科目: 北海道大学 生命科学院 特別講義
-
日程: 2021年9月13, 14, 15日
-
場所: 北海道大学 / zoom.us
-
授業の目標:
データの解析と作図はどんな研究にも不可欠です。 特に、回帰分析や仮説検定といった統計処理をする前に、データをいろいろな角度から可視化して全体の構造を見渡すことが重要です。 また、観察・実験・データベースなどから得られるデータは多種多様であり、 そのまますぐ作図に使えるということはめったにありません。 まずデータを整形するところから始める必要があります。 この前処理にせよ作図にせよ、エクセルであれをあっちにコピペして、メニューからあれを選択して… といった手作業でやるのは大変ですし、再現性が無いため科学の手続きとしても問題です。 いつでもだれでも再検証したり使いまわしたりできるように、 このような規則性のある退屈な仕事は機械に任せるのが得策です。 本講義では、近年さらに易しくなったR言語を用いることで、 いかに簡単に生データから効果的な作図まで辿り着けるか、 実例を交えながらご紹介します。 -
到達目標: Rを使用してデータの前処理・可視化・統計解析ができるようになる。
-
授業計画
- 入門1: データ解析の全体像。Rを使うメリット。Rの基本。
- 入門2: データ可視化の重要性と方法。
- データ構造の処理1: 抽出、集約など。
- データ構造の処理2: 結合、変形など。
- データ内容の処理: 数値、文字列、日時など。
- 統計モデリング基礎: 確率分布、尤度、一般化線形モデル
時間 9/13 Mon 9/14 Tue 9/15 Wed 08:45 入門1 課題解答 課題解答 10:30 入門2: 可視化 データ構造処理1 データ内容処理 13:00 自習・質問 データ構造処理2 統計モデリング 14:45 自習・質問 自習・質問 自習・質問 -
準備学習等
- ファイル、フォルダ、クリックなど一般的なパソコンの基礎知識と経験
-
教科書
- なし
-
参考書
実習環境の設定
参考: R初心者の館 by das_Kinoさん
https://das-kino.hatenablog.com/entry/2019/11/07/125044
-
手元のコンピューターのユーザー名(ホームフォルダの名前)を確認。 半角アルファベットじゃない文字(日本語とか記号とか)が含まれている場合、不具合の原因になりがちです。 たぶん変更できない?ので新しいユーザーを作って引っ越すのがいいと思います。
-
OSのソフトウェア・アップデートをすべて適用して再起動。
-
https://cran.r-project.org/ から最新版の R本体(≥4.1.0) をダウンロードしてインストール。 既にインストールしてある場合はバージョンを確認。
-
https://rstudio.com/products/rstudio/download/#download から最新版の RStudio(≥1.4.1717) をダウンロードしてインストール。 既にインストールしてある場合はバージョンを確認。
-
Windowsの場合は Rtools も必要かも。次のページに従って設定:
https://cran.r-project.org/bin/windows/Rtools/Macの場合、念のため次のソフトウェアを入れておくとよい:
- Command Line Tools:
xcode-select --install
(Xcode本体は不要) - XQuartz: 手動ダウンロード or
brew install xquartz
- Command Line Tools:
-
RStudioを起動し、左側のConsoleで
install.packages("tidyverse", type = "binary")
を実行。 何か訊かれたらyes
と回答。 パッケージがたくさんインストールされます。 -
Consoleに
update.packages(type = "binary")
と打ち込んで全パッケージ更新。 -
Consoleに
library(tidyverse)
と打ち込んでパッケージを読み込み、 以下のようなメッセージと共に読み込まれるのを確認:> library(tidyverse) ── Attaching packages ───────────────────────────── tidyverse 1.3.1 ── ✓ ggplot2 3.3.5 ✓ purrr 0.3.4 ✓ tibble 3.1.4 ✓ dplyr 1.0.7 ✓ tidyr 1.1.3 ✓ stringr 1.4.0 ✓ readr 2.0.1 ✓ forcats 0.5.1 ── Conflicts ──────────────────────────────── tidyverse_conflicts() ── x dplyr::filter() masks stats::filter() x dplyr::lag() masks stats::lag()
講義資料
全6回。リンク先では←→キーで戻る・進む。
- 2021-09-13 08:45 | 入門1: データ解析の全体像。Rを使うメリット。Rの基本。
- 2021-09-13 10:30 | 入門2: データ可視化の重要性と方法。
- 2021-09-14 10:30 | データ構造の処理1: 抽出、集約など。
- 2021-09-14 13:00 | データ構造の処理2: 結合、変形など。
- 2021-09-15 10:30 | データ内容の処理: 数値、文字列、日時など。
- 2021-09-15 13:00 | 統計モデリング基礎: 確率分布、尤度、一般化線形モデル