Rによるデータ前処理実習 2020 東京医科歯科大

概要

  1. 授業内容 (100–150字程度)
    データを元に可視化や検定・予測を行うためのソフトウェアは華々しく発展していますが、 それらを利用するためにはまず入力データを整える必要があり、 「データ分析に費やす労力の8割は前処理」などとも言われています。 その地味ながら重要な作業をなるべく楽に行うためにRを使う方法を学びましょう。
  2. 授業タイトル
    1. 入門1: 前処理とは。Rを使うメリット。Rの基本。
    2. 入門2: データ可視化の重要性と方法。
    3. データ構造の処理1: 抽出、集約など。
    4. データ構造の処理2: 結合、変形など。
    5. データ内容の処理: 数値、文字列、日時など。
    6. 実践: 現実の問題に対処してみる。
  3. 受講するうえで必要になる前提知識
    • ファイル、フォルダ、クリックなど一般的なパソコンの基礎知識と経験
  4. 教科書
    • なし
  5. 参考書
  6. その他 (注意事項等)

実習環境の設定 (遠隔参加者、自習)

参考: R初心者の館 by das_Kinoさん
https://das-kino.hatenablog.com/entry/2019/11/07/125044

  1. 手元のコンピューターのユーザー名(ホームフォルダの名前)を確認。 半角アルファベットじゃない文字(日本語とか記号とか)が含まれている場合、不具合の原因になりがちです。 たぶん変更できない?ので新しいユーザーを作って引っ越すのがいいと思います。

  2. OSのソフトウェア・アップデートをすべて適用して再起動。

  3. https://cran.r-project.org/ から最新版のR本体(≥4.0.0)をダウンロードしてインストール。 既にインストールしてある場合はバージョンを確認。

  4. https://rstudio.com/products/rstudio/download/#download から最新版のRStudio(≥1.3.1073)をダウンロードしてインストール。 既にインストールしてある場合はバージョンを確認。

  5. Windowsの場合はRtoolsも必要かも。次のページに従って設定:
    https://cran.r-project.org/bin/windows/Rtools/

  6. RStudioを起動し、左側のConsoleで install.packages("tidyverse", type = "binary") を実行。 何か訊かれたら yes と回答。 パッケージがたくさんインストールされます。

  7. Consoleに update.packages(type = "binary") と打ち込んで全パッケージ更新。

  8. Consoleに library(tidyverse) と打ち込んでパッケージを読み込み、 以下のようなメッセージと共に読み込まれるのを確認:

    > library(tidyverse)
    ── Attaching packages ───────────────────────────── tidyverse 1.3.0 ──
    ✓ ggplot2 3.3.2purrr   0.3.4tibble  3.0.3dplyr   1.0.2tidyr   1.1.2stringr 1.4.0readr   1.3.1forcats 0.5.0
    ── Conflicts ──────────────────────────────── tidyverse_conflicts() ──
    x dplyr::filter() masks stats::filter()
    x dplyr::lag()    masks stats::lag()
    

講義資料

全6回。リンク先ではキーで戻る・進む。