Rによるデータ前処理実習 2024 東京医科歯科大
- 講師: 岩嵜航 (東北大学生命科学研究科)
- 日程: 2024年9月7日から3週
- 場所: 東京医科歯科大学 M&Dタワー / zoom.us
概要
- 授業内容 (100–150字程度)
データを元に可視化や検定・予測を行うためのソフトウェアは華々しく発展していますが、 それらを利用するためにはまず入力データを整える必要があり、 「データ分析に費やす労力の8割は前処理」などとも言われています。 その地味ながら重要な作業をなるべく楽に行うためにRを使う方法を学びましょう。 - 授業タイトル
- 入門1: 前処理とは。Rを使うメリット。Rの基本。
- 入門2: データ可視化の重要性と方法。
- データ構造の処理1: 抽出、集約など。
- データ構造の処理2: 結合、変形など。
- データ内容の処理: 数値、文字列、日時など。
- 実践: 現実の問題に対処してみる。
- 受講するうえで必要になる前提知識
- ファイル、フォルダ、クリックなど一般的なパソコンの基礎知識と経験
- 教科書
- なし
- 参考書
- その他 (注意事項等)
- 講義資料は公開予定: https://heavywatal.github.io/slides/tmd2024/
実習環境の設定
-
OSのソフトウェア・アップデートを基本的に全て適用して再起動。
- Windows 11 (≥23H2)
- macOS Sonoma (≥14.6)
-
ファイル名の末尾(
.pdf
とか.png
とか)の拡張子を常時表示するようにOSを設定。 -
https://cran.r-project.org/ から最新版の R本体(≥ 4.4.1) をダウンロードしてインストール。 OK連打のデフォルト設定で。 古いものが既に入っている場合は念のため削除してから。
- Windows → base →
R-4.*.*-win.exe
- Mac
→
R-4.*.*-arm64.pkg
(Apple Silicon) orR-4.*.*.pkg
(Intel)
- Windows → base →
-
https://posit.co/download/rstudio-desktop/ から最新版の RStudio (≥ 2024.04.2) をダウンロードしてインストール。 古いものが既に入っている場合は念のため削除してから。
-
開発者ツールをインストール。 ここでは必須ではないけどいずれ使うことになる。
- Windows: Rtools (R本体のバージョンに合わせる)
- Mac: Command Line Tools:
ターミナルで
xcode-select --install
を実行。 Xcode環境は不要。
-
RStudioを起動し、左側のConsoleで次の1行を実行:
install.packages("tidyverse", type = "binary")
何か訊かれたら
yes
と回答。 パッケージがたくさんインストールされる。 エラーや警告らしきものがあれば全文コピーしておく。 -
Consoleに次の2行を打ち込んでメッセージを確認:
library(conflicted) library(tidyverse)
── Attaching core tidyverse packages ──── tidyverse 2.0.0 ── ✔ dplyr 1.1.4 ✔ readr 2.1.5 ✔ forcats 1.0.0 ✔ stringr 1.5.1 ✔ ggplot2 3.5.1 ✔ tibble 3.2.1 ✔ lubridate 1.9.3 ✔ tidyr 1.3.1 ✔ purrr 1.0.2
エラーや警告が出たら
-
実習当日に教員に相談。
-
バージョン確認。OS、R、RStudioなどのソフトウェアが古すぎるかも。 それらが十分に新しければ、次に挙げる日本語やOneDriveの問題は対処済みのはず。
-
手元のコンピューターのホームフォルダを確認。 新しくターミナルを開いて
pwd
コマンドを実行。 ここに半角アルファベットじゃない文字(日本語とか記号とか空白とか)が含まれている場合、不具合の原因になりがち。 ここだけ修正するのはかなり難しい (ユーザー名のフルネーム表示は変更できるけどそれは無関係)。 新しいユーザーアカウントを作って引っ越すとか、 OSをクリーンインストールするとかしてやり直したほうが結局早そう。 半角アルファベット小文字のみで短いものを推奨。- ✅ Good:
watal
,tamakino
- ❌ Bad:
岩嵜航
,Watal Iwasaki
,heavy.watal
Windowsのホームフォルダ(
%USERPROFILE%
)はログインの仕方で決まるっぽい:- ✅ Microsoftアカウント(
example@outlook.jp
)でログイン:C:/Users/examp/
(ユーザー名が漢字だろうがなんだろうが、メールアドレスの最初の5文字が使われるのでセーフ) - Microsoftアカウントを使わず、ローカルユーザーとしてログイン
- ✅ 半角英字のみのユーザー名なら問題ない:
C:/Users/goodname/
- ❌ 漢字など全角文字を含むアカウント名:
C:/Users/朗軽 遊佐/
RとRStudioは既に対応済みだけど、Quarto(あるいはPandoc?)は未対応らしくてエラー。 他のソフトウェアでも不具合が出る危険あり。 ローカルユーザーを作ったあとでMicrosoftアカウントと紐付けても直らなそう。
- ✅ 半角英字のみのユーザー名なら問題ない:
- ✅ Good:
-
Windowsの場合OneDriveが悪さしているかも。 参考:
講義資料
←→キーで戻る・進むスライド形式。
- 2024-09-07 13:00 | 入門1: 前処理とは。Rを使うメリット。Rの基本。
- 2024-09-07 14:40 | 入門2: データ可視化の重要性と方法。
- 2024-09-14 13:00 | データ構造の処理1: 抽出、集約など。
- 2024-09-14 14:40 | データ構造の処理2: 結合、変形など。
- 2024-09-21 13:00 | データ内容の処理: 数値、文字列、日時など。
- 2024-09-21 14:40 | 実践: 現実の問題に対処してみる。