Hands-on R Lecture for Makino Lab

岩嵜 航 (Watal M. Iwasaki)
東北大学 生命科学研究科 進化ゲノミクス分野
  1. Why do we use R?
  2. R basics
  3. Visualization with R
  4. Tidying and transforming data with R
  5. Statistical analysis with R
  6. File management with Git+GitHub
資料作成協力: 石川由希 (名古屋大学 理学研究科 脳回路構造学 講師)
2019-10-09 生物棟大会議室

科学の営み = 巨人の肩に立つ

https://en.wikipedia.org/wiki/
Standing_on_the_shoulders_of_giants

先人たちの積み重ねに基づいて、新しい発見をする

記録を残すことは何より重要
実験や野外観察では些細なことも漏らさず記録。
生データは何重にもバックアップ。
みんな結構できてる(はず)。
データ整理・解析・作図も不可欠、だけど…
再現不能の職人技で切り抜けちゃう人も多い。
コピペ、メニュー選択、配色と配置を微調整…
疑義が生じたら…? 別の人がその研究を発展させたいとき…?
💩「ありまぁす!」
✅「誰でも確実に再現できるプロトコルがこちらです」

Reproducible Research (再現可能な研究) が巨人を大きくする。

再現不可能な職人的研究の例

動物園の混合展示で、各種動物はどのように分布・行動しているか、
それらを決める要因は何か。膨大な観察データに基づく超大作卒論。

生データ: ここはまだそんなに悪くない

週に1回、各個体の位置と行動を種ごとのファイルに記録。
タブは個体、A列B列はXY座標でそれ以降の列は行動、各行はある時刻。

マウスとコピペを駆使して条件ごとに複製・集計

ちゃんと合ってるのかな… ファイルもタブもたくさん…

マウスとコピペを駆使して条件ごとに複製・集計

ちゃんと合ってるのかな… ファイルもタブもたくさん…

目と手で数え、濃淡を計算し、画像ソフトで塗る

泣きながら何十枚も…。無料期間が終わって今は使えない…。

目作業・手作業 = シーシュポスの岩

Punishment sisyph.jpg
https://en.wikipedia.org/wiki/Sisyphus
  • 膨大な単純作業がそもそもツラい
  • 人間だもの、ミスは防ぎきれない
  • なるべくミスを防ぐためのチェックもツラい
  • ミスを発見 → 初めからやり直し
  • 新たなデータ・研究 → 初めからやり直し
  • 熟練してもツラいまま
  • そのときの自分しかできない、記録に残らない
    検証のしようがない
  • 卒論なら努力賞でいいかもしれないけど、科学の手続きとしては問題。

プログラミングで大量のファイルを捌く

先の例に負けず生データはどっさり。でも頑張るのは機械。

Iwasaki, Kijima, Innan (2019)

こんな感じの図もRでラクラク描けるよ


Iwasaki and Innan (2017)

Rにやらせて楽しよう

  • 規則性のある退屈な仕事は人間よりも機械のほうが得意。
  • 一度書いたプログラムは、データが変わっても使いまわせる
  • 自分以外の人でも再現・検証できる
  • きれいな図を簡単に描ける
  • 部分的に改変しながらいろんな解析を試せる。
    仮説検証 だけでなく、 仮説生成(探索的データ解析) もやりやすい
  • やれば上達する。どんどん楽になる!
https://r4ds.had.co.nz/introduction.html

R is a programming language/environment

for statistical computing and graphics

https://cran.r-project.org/
Cross-platform
Linux, Mac, Windows
Open source
Free of charge.
Improved by collective intelligence.
Community
Easy to find many websites and people to consult.

There are some alternatives.
Python is comparable. Julia is rising.

Goal of this hands-on lecture

Want to do reproducible research effortlessly

⬜ Know you can do this and that with R

⬜ Know who/where/how to consult


That's all. You don't have to remember details.

This slide deck is also available online:
https://heavywatal.github.io/slides/

Reference

R for Data Science — Hadley Wickham and Garrett Grolemund
https://r4ds.had.co.nz/
Book
日本語版書籍(Rではじめるデータサイエンス)
Older versions
Rにやらせて楽しよう — データの可視化と下ごしらえ」 岩嵜航 2018
「Rを用いたデータ解析の基礎と応用」石川由希 2019 名古屋大学
Irreproducible thesis
SOKENDAI student M. S. (now R user)