Rにやらせてラクしよう — データの可視化と下ごしらえ

岩嵜 航 (Watal M. Iwasaki)
総研大 先導科学研究科
(SOKENDAI, The Graduate University for Advanced Studies)
  1. どうしてRを使うの?
  2. Rの基本
  3. R + ggplot2 — きれいなグラフを簡単に合理的に
  4. R + tidyverse — 使える形にデータを整える
2018-05-18 名古屋大学 アドバンス生命理学特論 IGER Seminar

科学の営み = 巨人の肩に立つ

https://en.wikipedia.org/wiki/
Standing_on_the_shoulders_of_giants

先人たちの積み重ねに基づいて、新しい発見をする

記録を残すことは何より重要
実験や野外観察では些細なことも漏らさず記録。
生データは何重にもバックアップ。
みんな結構できてる(はず)。
データの整理・解析・作図も不可欠、だけど
再現不能の職人技で切り抜けちゃう人も多い。
コピペ、メニュー選択、配色と配置を微調整…
疑義が生じたら…? 別の人がその研究を発展させたいとき…?
❌「ありまぁす!」
⭕「誰でも確実に再現できるプロトコルがこちらです」

Reproducible Research (再現可能な研究) が巨人を大きくする。

再現不可能な職人的研究の例

動物園の混合展示で、各種動物はどのように分布・行動しているか、
それらを決める要因は何か。膨大な観察データに基づく超大作卒論。

生データ: ここはまだそんなに悪くない

週に1回、各個体の位置と行動を種ごとのファイルに記録。
タブは個体、A列B列はXY座標でそれ以降の列は行動、各行はある時刻。

マウスとコピペを駆使して条件ごとに複製・集計

ちゃんと合ってるのかな… ファイルもタブもたくさん…

マウスとコピペを駆使して条件ごとに複製・集計

ちゃんと合ってるのかな… ファイルもタブもたくさん…

目と手で数え、濃淡を計算し、画像ソフトで塗る

泣きながら何十枚も…。無料期間が終わって今は使えない…。

目作業・手作業 = シーシュポスの岩

Punishment sisyph.jpg
https://en.wikipedia.org/wiki/Sisyphus
  • 膨大な単純作業がそもそもツラい
  • 人間だもの、ミスは防ぎきれない
  • なるべくミスを防ぐためのチェックもツラい
  • ミスを発見 → 初めからやり直し
  • 新たなデータ・研究 → 初めからやり直し
  • 熟練してもツラいまま
  • そのときの自分しかできない、記録に残らない
    → 検証のしようがない
  • 卒論なら努力賞でいいかもしれないけど、科学の手続きとしては問題。

プログラミングで大量のファイルを捌く

先の例に負けず生データはどっさり。でも頑張るのは機械。

(submitted)

こんな感じの図もRでラクラク描けるよ


Iwasaki and Innan (2017)

Rにやらせて楽しよう

  • 規則性のある退屈な仕事は人間よりも機械のほうが得意。
  • 一度書いたプログラムは、データが変わっても使いまわせる
  • 自分以外の人でも再現・検証できる
  • きれいな図を簡単に描ける
  • 部分的に改変しながらいろんな解析を試せる。
    仮説検証 だけでなく、 仮説生成(探索的データ解析) もやりやすい
  • やれば上達する。
https://r4ds.had.co.nz/introduction.html

Rとは

統計解析と作図の機能が充実したプログラミング言語

https://cran.r-project.org/
クロスプラットフォーム
Linux, Mac, Windowsで動く。
オープンソース
永久に無償で、すべての機能を使える。
集合知によって常に進化している。
コミュニティ
相談できる人や参考になるウェブサイトがたくさん見つかる。

ほかのプログラミング言語でもできなくはない。
Pythonもいいよ。

本講義の目標

まっとうな科学を、もっと楽にやりたいな (済)

あれもこれもRでやれそうだな

やりたくなったらこのへんを調べればいいんだな


この3点さえ押さえれば、具体的なやり方は覚えなくても大丈夫

この発表スライドもオンラインで読める
https://heavywatal.github.io/slides/

参考

再現可能性のすゝめ — 高橋康介(著) 石田基広(監修)
R for Data Science — Hadley Wickham and Garrett Grolemund
https://r4ds.had.co.nz/
英語版書籍
日本語版書籍(Rではじめるデータサイエンス)
協力
総研大 博士課程 M. S. さん (現在はRユーザー)