Rによる統計モデリング入門 2026 栃木県

岩嵜 航
東北大学 生命科学研究科 進化ゲノミクス分野 牧野研 特任助教
  1. データ解析入門
  2. Rの基本
  3. Rによるデータ可視化
2026-02-03 栃木県農業総合研究センター (remote)
https://heavywatal.github.io/slides/tochigi2026/

科学の営み = 巨人の肩に立つ

https://en.wikipedia.org/wiki/Standing_on_the_shoulders_of_giants

先人たちの積み重ねに基づいて、新しい発見をする

記録を残すことは何より重要
実験や野外観察では些細なことも漏らさず記録。
生データは何重にもバックアップ。
データ整理・解析・作図も不可欠、だけど…
再現不能の職人技で切り抜けちゃう人も多い。
コピペ、メニュー選択、配色と配置を微調整…
疑義が生じたら…? 別の人がその研究を発展させたいとき…?
💩「ありまぁす!」
✅「誰でも確実に再現できるプロトコルがこちらです」

Reproducible Research (再現可能な研究) が巨人を大きくする。

マウス操作とコピペを駆使した職人技は再現不可能

ちゃんと合ってるのかな… ファイルもタブもたくさん…

とある学生さんの卒業研究

目と手で数え、濃淡を計算し、画像ソフトで塗る

泣きながら何十枚も…。無料期間が終わって今は使えない…。

目作業・手作業 = シーシュポスの岩

Punishment sisyph.jpg
https://en.wikipedia.org/wiki/Sisyphus
  • 膨大な単純作業がそもそもツラい
  • 人間だもの、ミスは防ぎきれない
  • ミスを減らすためのチェックもツラい
  • ミスを発見 → 初めからやり直し
  • 新データ追加 → 初めからやり直し
  • 熟練してもツラいまま
  • そのときの自分しかできない、記録に残らない
    検証のしようがない
  • 卒論なら努力賞でいいかもしれないけど、科学の手続きとしては問題。

プログラミングで大量のファイルを捌く

先の例に負けず生データはどっさり。でも頑張るのは機械。

Iwasaki, Kijima, Innan (2019)

こんな感じの図もRでラクラク描けるよ


Iwasaki and Innan (2017)

Rにやらせて楽しよう

  • 規則性のある退屈な仕事は人間よりも機械のほうが得意。
  • 一度書いたプログラムは、データが変わっても使いまわせる
  • 自分以外の人でも再現・検証できる
  • きれいな図を簡単に描ける
  • やれば上達する。どんどん楽になる!

Rとは

統計解析と作図の機能が充実したプログラミング言語・環境

https://cran.r-project.org/
クロスプラットフォーム
Linux, Mac, Windows で動く
オープンソース
永久に無償で、すべての機能を使える。
集合知によって常に進化している。
コミュニティ
相談できる人や参考になるウェブサイトがたくさん見つかる。

他のプログラミング言語でもいいよ: PythonとかJuliaとか。

Keyboard shortcuts

Action Mac Windows
Switch apps commandtab alttab
Quit apps commandq altF4
Spotlight commandspace
Cut, Copy, Paste commandx, -c, -v ctrlx, -c, -v
Select all commanda ctrla
Undo commandz ctrlz
Find commandf ctrlf
Save commands ctrls

See https://support.apple.com/HT201236

R環境のセットアップ

R本体
コマンドを解釈して実行するコア部分。
よく使われる関数なども標準パッケージとして同梱。
RStudio Desktop
Rをより快適に使うための総合開発環境 (IDE)
必須じゃないけど便利なので結構みんな使ってる。
VS Code やその亜種 Positron, Cursor なども人気。

RStudioを起動してConsoleで対話しよう

Workspace (Environment) = 一時オブジェクトの集まり

毎回まっさらなワークスペースで始める設定

RStudio → Preferences   command,
Tools → Global options

“Restore …” のチェックを外して、 “Save …” のNeverを選択

https://r4ds.hadley.nz/workflow-scripts.html#fig-blank-slate

“Project” を新規作成する

File → New Project… → New Directory → New Project →
→ Directory name: r-training-2026
→ as subdirectory of: ~/project or C:/Users/yourname/project

📁 ディレクトリ = フォルダ。 ~/ = ホームディレクトリ

Rスクリプトに書いてから実行

File → New File → R script

Rスクリプトに書いてから実行

File → New File → R script

Rスクリプトに書いてから実行

Select text with shift
Execute them with ctrlreturn

Rスクリプトを保存する

  • 手順
    • File → Save commands
    • ファイル名: hello.R
    • 場所: さっき作ったプロジェクト内 (デフォルトでそうなるはず)
  • スクリプトを書いたら消さずに保存すること!
    • 書いたスクリプトは財産
    • 保存しておけばまた使い回せる

🔰 いろんな四則演算を試して hello.R に保存してみよう。
e.g., 1 + 2 + 3, 3 * 7 * 2, 4 / 2, 4 / 3, etc.

プロジェクト📁にファイルが溜まっていく

スクリプト、データ、結果を分けて整理する例:

r-training-2026/           # プロジェクトの最上階
├── r-training-2026.Rproj  # これダブルクリックでRStudioを起動
├── hello.R
├── transform.R            # データ整理・変形のスクリプト
├── visualize.R            # 作図のスクリプト
├── data/                  # 元データを置くところ
│   ├── iris.tsv
│   └── diamonds.xlsx
└── output/                # 結果の出力先
    ├── iris-petal.png
    └── iris-summary.tsv

プロジェクト最上階を作業ディレクトリとし、
ファイル読み書きの基準にする。(後で詳しく)

ほんの一例です。好きな構造に決めてください。

作業ディレクトリ: Rにとっての現在地 getwd()

  • ファイル読み書き、画像の保存などはここが基準。
  • *.Rproj ダブルクリックでRStudioを開けば、いい位置で作業再開。

Rと接する上での心構え

エラー文を恐れない
熟練プログラマでも頻繁にエラーを起こす。
エラーはRからのメッセージ。意図を読み取って修正しよう。
プログラミングの経験値 ≈ エラー解決の経験値
困ったらウェブ検索
あなたの問題は全世界のRユーザーが既に通った道。
日本語で、英語で、エラー文そのもので検索すれば解決策に当たる。
AIの使い方には注意
✅ コードを解説・提案してもらう → 理解・コードが蓄積
💩 LLMに計算させる → それっぽい値をでっちあげ。理解も再現性も無し

この実習の取り組み方

とにかく手を動かして体感しよう!

  1. こういう枠が出てきたら、自分のRスクリプトにコピペして保存:
    head(iris)
    
  2. 実行してコンソールを確認。思ったとおりの出力?
    ErrorWarning があったらよく読んで対処する。
  3. 🔰若葉マークの練習問題があれば解いてみる。
    そこまでのコードのコピペ+改変でできるはず。
    (AIに相談してもいいけど、かえって遠回り)

疑問・困りごとがある場合は気軽に割り込んでください。

変数/オブジェクトを作ってみよう

x = 2        # Create x
x            # What's in x?
[1] 2
y = 5        # Create y
y            # What's in y?
[1] 5

Rでは代入演算子として矢印 <- も使えるけど私は = 推奨。
# 記号より右はRに無視される。コメントを書くのに便利。

x + y
[1] 7

🔰 xy の引き算、掛け算、割り算をやってみよう

基本的な演算

+ とか * のような演算子(operator)を変数の間に置く。

10 + 3    # addition
10 - 3    # subtraction
10 * 3    # multiplication
10 / 3    # division
10 %/% 3  # integer division
10 %% 3   # modulus 剰余
10 ** 3   # exponent 10^3

🔰 コピペして結果を確認してみよう。

関数 (function)

変数を受け取って、何か仕事して、返す命令セット

x = seq(1, 3)  # 1と3を渡すとvectorが返ってくる
x
[1] 1 2 3
sum(x)         # vectorを渡すと足し算が返ってくる
[1] 6
square = function(something) {  # 自分の関数を定義
  something ** 2
}
square(x)                       # 使ってみる
[1] 1 4 9

🔰 自分の関数を何か作ってみよう。 e.g., 2倍にする関数 twice

変数/オブジェクトを作ってみよう Part 2

x = 42       # Create x
x            # What's in x?
[1] 42
y = "24601"  # Create y
y            # What's in y?
[1] "24601"

この xy を足そうとするとエラーになる。なぜ?

x + y        # Error! Why?
Error in `x + y`:
! non-numeric argument to binary operator

変数/オブジェクトの型

class(x)
[1] "numeric"
is.numeric(x)
[1] TRUE
is.character(x)
[1] FALSE
as.character(x)
[1] "42"

🔰 さっき作った y にも同じ関数を適用してみよう。

変数/オブジェクトの型

  • vector: 基本型。一次元の配列。
    • logical: 論理値 (TRUE or FALSE)
    • numeric: 数値 (整数 42L or 実数 3.1416)
    • character: 文字列 ("a string")
    • factor: 因子 (文字列っぽいけど微妙に違う)
  • array: 多次元配列。vector同様、全要素が同じ型。
    • matrix: 行列 = 二次元の配列。
  • list: 異なる型でも詰め込める太っ腹ベクトル。
  • data.frame: 同じ長さのベクトルを並べた長方形のテーブル。重要。
    tibble とか tbl_df と呼ばれる亜種もあるけどほぼ同じ。

vector: 一次元の配列

1個の値でもベクトル扱い。
同じ長さ(または長さ1)の相手との計算が得意。

x = c(1, 2, 9)  # 長さ3の数値ベクトル
x + x           # 同じ長さ同士の計算
[1]  2  4 18
y = 10          # 長さ1の数値ベクトル
x + y           # 長さ3 + 長さ1 = 長さ3 (それぞれ足し算)
[1] 11 12 19
x < 5           # 5より小さいか
[1]  TRUE  TRUE FALSE

🔰 この x, y を使っていろいろな演算を試してみよう

vectorから部分的に抜き出す

[] を使う。番号は1から始まる。

letters
 [1] "a" "b" "c" "d" "e" "f" "g" "h" "i" "j" "k" "l" "m" "n" "o" "p" "q" "r" "s" "t" "u" "v" "w" "x" "y" "z"
letters[3]
[1] "c"
letters[seq(4, 6)]       # 4 5 6
[1] "d" "e" "f"
letters[seq(1, 26) < 4]  # TRUE TRUE TRUE FALSE FALSE ...
[1] "a" "b" "c"

vectorを渡した結果は関数によって異なる

各要素に適用するもの:

x = c(1, 2, 9)
y = sqrt(x)     # square root
y
[1] 1.000000 1.414214 3.000000

全要素を集約した値を返すもの:

z = sum(x)
z
[1] 12

🔰 log(), exp(), length(), max(), mean() にvectorを渡してみよう。

matrix: 二次元の配列 (行列)

1本のvectorを折り曲げて長方形にしたもの。
中身は全て同じ型。機械学習とか画像処理とかで使う。

v = seq(1, 8)              # c(1, 2, 3, 4, 5, 6, 7, 8)
x = matrix(v, nrow = 2)    # 2行に畳む。列ごとに詰める
x
     [,1] [,2] [,3] [,4]
[1,]    1    3    5    7
[2,]    2    4    6    8
y = matrix(v, nrow = 2, byrow = TRUE)  # 行ごとに詰める
y
     [,1] [,2] [,3] [,4]
[1,]    1    2    3    4
[2,]    5    6    7    8

🔰 結果を確認してみよう: x + y, dim(x), nrow(x), ncol(x).

行 (row), 列 (column) の憶え方

data.frame: 長方形のテーブル (重要!)

同じ長さの列vectorを複数束ねた長方形の表。
e.g., 長さ150の数値ベクトル4本と因子ベクトル1本:

print(iris)
    Sepal.Length Sepal.Width Petal.Length Petal.Width   Species
  1          5.1         3.5          1.4         0.2    setosa
  2          4.9         3.0          1.4         0.2    setosa
  3          4.7         3.2          1.3         0.2    setosa
  4          4.6         3.1          1.5         0.2    setosa
 --                                                            
147          6.3         2.5          5.0         1.9 virginica
148          6.5         3.0          5.2         2.0 virginica
149          6.2         3.4          5.4         2.3 virginica
150          5.9         3.0          5.1         1.8 virginica

iris はアヤメ属3種150個体に関する測定データ。
Rに最初から入ってて、例としてよく使われる。

data.frameを眺める

概要を掴む:

head(iris, 6)   # 先頭だけ見てみる。末尾は tail()
nrow(iris)      # 行数: Number of ROWs
ncol(iris)      # 列数: Number of COLumns
names(iris)     # 列名
summary(iris)   # 要約
View(iris)      # RStudioで閲覧
str(iris)       # 構造が分かる形で表示
tibble [150 × 5] (S3: tbl_df/tbl/data.frame)
 $ Sepal.Length: num [1:150] 5.1 4.9 4.7 4.6 5 5.4 4.6 5 4.4 4.9 ...
 $ Sepal.Width : num [1:150] 3.5 3 3.2 3.1 3.6 3.9 3.4 3.4 2.9 3.1 ...
 $ Petal.Length: num [1:150] 1.4 1.4 1.3 1.5 1.4 1.7 1.4 1.5 1.4 1.5 ...
 $ Petal.Width : num [1:150] 0.2 0.2 0.2 0.2 0.2 0.4 0.3 0.2 0.2 0.1 ...
 $ Species     : Factor w/ 3 levels "setosa","versicolor",..: 1 1 1 1 1 1 1 1 1 1 ...

ほかのデータもいろいろ見てみよう。 e.g., mtcars, quakes, data()

R package

便利な関数やデータセットなどをひとまとめにしたもの。

Standard Packages
Rの標準機能。何もしなくても使用可能
Contributed Packages
有志により開発され、 CRAN にまとめて公開されている。
要インストール。使う前に読み込むおまじないが必要。
install.packages("ggplot2")  # 一度やればOK
library(ggplot2)             # 読み込みはRを起動するたびに必要
update.packages()            # たまには更新しよう
素のRも覚えきってないのにいきなりパッケージ?
大丈夫。誰も覚えきってない。
パッケージを使わないR作業 = 火もナイフも使わない料理

tidyverse: データ科学のためのパッケージ群

# install.packages("tidyverse") # 済んでるはず
library(conflicted) # 安全のおまじない
library(tidyverse)  # 一挙に読み込み
── Attaching core tidyverse packages ──── tidyverse 2.0.0 ──
✔ dplyr     1.2.0     ✔ readr     2.1.6
✔ forcats   1.0.1     ✔ stringr   1.6.0
✔ ggplot2   4.0.2     ✔ tibble    3.3.1
✔ lubridate 1.9.4     ✔ tidyr     1.3.2
✔ purrr     1.2.1     

一貫したデザインでデータ解析の様々な工程をカバー

https://r4ds.hadley.nz/intro

疑問やエラーの解決方法

  • エラーのほとんどは凡ミス由来。よく確認しよう。
  • エラー文やパッケージ名をコピペしてウェブ検索
    StackOverflow や個人サイトに解決策
  • Slack r-wakalang で質問を投稿する。
    (質問に飢えた優しいワニが多数生息 👀   👀   👀   👀)
  • 状況再現できる小さな例 (reprex) を添えると回答を得やすい。
    (これを準備してるうちに問題が切り分けられて自己解決したり)
  • パッケージの公式ドキュメントをちゃんと読む
  • R(Studio)内のヘルプを読む: ?sum, help.start()

まとめ: Rの基礎

✅ Rはデータ解析に便利なプログラミング言語・環境

プロジェクトを使ってファイルを管理

スクリプトを書いてからコンソールで実行

✅ 変数には型がある: 数値、文字列、データフレームなど

✅ 便利なパッケージを使っていく

✅ 疑問・エラーの解決方法


個々の方法は覚えなくても大丈夫!
忘れては調べ、を何度も繰り返しながら染み込ませていこう。

参考

R for Data Science — Hadley Wickham et al.
https://r4ds.hadley.nz, Paperback
日本語版書籍(Rではじめるデータサイエンス)
Older versions
Rにやらせて楽しよう — データの可視化と下ごしらえ」 岩嵜航 2018
Rを用いたデータ解析の基礎と応用」 石川由希 2025 名古屋大学
Rを用いたデータ解析入門」 岩嵜航 2025 東北大学
3. Rによるデータ可視化