進化学実習 2024 牧野研 東北大学
概要
-
講師: 岩嵜航 (東北大学 生命科学研究科 進化ゲノミクス分野 牧野研)
-
科目: 東北大学 理学部生物学科 進化学実習
-
日程: 2024年4月8, 9, 10, 11, 15日
-
場所: 東北大学理学部合同A棟3階実習室 / zoom.us
-
概要:
理学部生物学科における研究とは、大雑把に言うと 「生物に関するデータを集め、その背後にある理(ことわり)を読み解くこと」です。 そのため、データの解析と作図はどんな研究をするにもほぼ不可欠となります。 正しい結論を導くためには、データをいろいろな角度から可視化して全体の構造を見渡すことが特に重要です。 また、観察・実験・データベースなどから得られるデータは多種多様であり、 そのまますぐ使えることはめったにありません。 まずデータを整形するところから始める必要があります。 この前処理にせよ、作図にせよ、 「エクセルであれをあっちにコピペして、メニューからあれを選択して…」 といった手作業でやるのは大変ですし、再現性が無いため科学の手続きとしても問題です。 いつでもだれでも再検証したり使いまわしたりできるように、 規則性のある退屈な仕事は機械に任せるのが得策です。 本実習では、近年さらに易しくなったR言語を用いることで、 生データから効果的な作図まで簡単に辿り着けるということを体験してもらいます。 -
到達目標: 生物学研究におけるデータ解釈・解析の重要性を認識する。 Rを使用してデータの前処理・可視化ができるようになる。
-
授業計画
- 導入: データ解析の全体像。Rの基本。
- データの可視化。
- データ構造の処理1: 抽出、集約など。
- データ構造の処理2: 結合、変形など。
- データ内容の処理: 数値、文字列など。
- データ入力、レポート作成
- 統計モデリング1: 確率分布、尤度
- 統計モデリング2: 一般化線形モデル
- 発表会
時間 4/8 Mon 4/9 Tue 4/10 Wed 4/11 Thu 4/15 Mon 13:00 導入 構造処理1 内容処理 統計モデル1 発表会 14:40 可視化 構造処理2 データ入力 統計モデル2 発表会 16:20 練習問題 練習問題 練習問題 練習問題 予備 -
準備学習等
- ファイル、フォルダ、クリックなど一般的なパソコンの基礎知識と経験
- 下記のパソコン環境設定
-
教科書
- なし
-
参考書
実習環境の設定
途中まででもいいので、できるかぎり実習前に済ませてもらえると助かります。
-
OSのソフトウェア・アップデートを基本的に全て適用して再起動。
- Windows 11 (≥23H2)
- macOS Sonoma (≥14.4)
-
ファイル名の末尾(
.pdf
とか.png
とか)の拡張子を常時表示するようにOSを設定。 -
https://cran.r-project.org/ から最新版の R本体(≥ 4.3.3) をダウンロードしてインストール。 OK連打のデフォルト設定で。 古いものが既に入っている場合は念のため削除してから。
- Windows → base →
R-4.*.*-win.exe
- Mac
→
R-4.*.*-arm64.pkg
(Apple Silicon) orR-4.*.*.pkg
(Intel)
- Windows → base →
-
https://posit.co/download/rstudio-desktop/ から最新版の RStudio (≥ 2023.12.1) をダウンロードしてインストール。 古いものが既に入っている場合は念のため削除してから。
-
開発者ツールをインストール。 ここでは必須ではないけどいずれ使うことになる。
- Windows: Rtools (R本体のバージョンに合わせる)
- Mac: Command Line Tools:
ターミナルで
xcode-select --install
を実行。 Xcode環境は不要。
-
RStudioを起動し、左側のConsoleで次の1行を実行:
install.packages("tidyverse", type = "binary")
何か訊かれたら
yes
と回答。 パッケージがたくさんインストールされる。 エラーや警告らしきものがあれば全文コピーしておく。 -
Consoleに次の2行を打ち込んでメッセージを確認:
library(conflicted) library(tidyverse)
── Attaching core tidyverse packages ─────────────────────────────── tidyverse 2.0.0 ── ✔ dplyr 1.1.4 ✔ readr 2.1.5 ✔ forcats 1.0.0 ✔ stringr 1.5.1 ✔ ggplot2 3.5.0 ✔ tibble 3.2.1 ✔ lubridate 1.9.3 ✔ tidyr 1.3.1 ✔ purrr 1.0.2
エラーや警告が出たら
-
実習当日に教員やTAに相談。全員の環境を確認してから進みます。
-
バージョン確認。OS、R、RStudioなどのソフトウェアが古すぎるかも。 それらが十分に新しければ、次に挙げる日本語やOneDriveの問題は対処済みのはず。
-
手元のコンピューターのホームフォルダを確認。 新しくターミナルを開いて
pwd
コマンドを実行。 ここに半角アルファベットじゃない文字(日本語とか記号とか空白とか)が含まれている場合、不具合の原因になりがち。 ここだけ修正するのはかなり難しい (ユーザー名のフルネーム表示は変更できるけどそれは無関係)。 新しいユーザーアカウントを作って引っ越すとか、 OSをクリーンインストールするとかしてやり直したほうが結局早そう。 半角アルファベット小文字のみで短いものを推奨。- ✅ Good:
watal
,tamakino
- ❌ Bad:
岩嵜航
,Watal Iwasaki
,heavy.watal
Windowsのホームフォルダ(
%USERPROFILE%
)はログインの仕方で決まるっぽい:- ✅ Microsoftアカウント(
example@outlook.jp
)でログイン:C:/Users/examp/
(ユーザー名が漢字だろうがなんだろうが、メールアドレスの最初の5文字が使われるのでセーフ) - Microsoftアカウントを使わず、ローカルユーザーとしてログイン
- ✅ 半角英字のみのユーザー名なら問題ない:
C:/Users/goodname/
- ❌ 漢字など全角文字を含むアカウント名:
C:/Users/朗軽 遊佐/
RとRStudioは既に対応済みだけど、Quarto(あるいはPandoc?)は未対応らしくてエラー。 他のソフトウェアでも不具合が出る危険あり。 ローカルユーザーを作ったあとでMicrosoftアカウントと紐付けても直らなそう。
- ✅ 半角英字のみのユーザー名なら問題ない:
- ✅ Good:
-
Windowsの場合OneDriveが悪さしているかも。 参考:
講義資料
←→キーで戻る・進むスライド形式。
- 2024-04-08 13:00 | 導入: データ解析の全体像。Rの基本。
- 2024-04-08 14:40 | データの可視化。
- 2024-04-09 13:00 | データ構造の処理1: 抽出、集約など。
- 2024-04-09 14:40 | データ構造の処理2: 結合、変形など。
- 2024-04-10 13:00 | データ内容の処理: 数値、文字列など。
- 2024-04-10 14:40 | データ入力、レポート作成
- 2024-04-11 13:00 | 統計モデリング1: 確率分布、尤度
- 2024-04-11 14:40 | 統計モデリング2: 一般化線形モデル
- 2024-04-15 13:00 | 発表会