Rによるデータ前処理実習 2020 東京医科歯科大
- 講師: 岩嵜航 (東北大学生命科学研究科)
- 日程: 2020年10月3日、10日、17日
- 場所: 東京医科歯科大学 M&Dタワー 情報検索室1
概要
- 授業内容 (100–150字程度)
データを元に可視化や検定・予測を行うためのソフトウェアは華々しく発展していますが、 それらを利用するためにはまず入力データを整える必要があり、 「データ分析に費やす労力の8割は前処理」などとも言われています。 その地味ながら重要な作業をなるべく楽に行うためにRを使う方法を学びましょう。 - 授業タイトル
- 入門1: 前処理とは。Rを使うメリット。Rの基本。
- 入門2: データ可視化の重要性と方法。
- データ構造の処理1: 抽出、集約など。
- データ構造の処理2: 結合、変形など。
- データ内容の処理: 数値、文字列、日時など。
- 実践: 現実の問題に対処してみる。
- 受講するうえで必要になる前提知識
- ファイル、フォルダ、クリックなど一般的なパソコンの基礎知識と経験
- 教科書
- なし
- 参考書
- その他 (注意事項等)
- 講義資料は公開予定: https://heavywatal.github.io/slides/tmd2020/
実習環境の設定 (遠隔参加者、自習)
参考: R初心者の館 by das_Kinoさん
https://das-kino.hatenablog.com/entry/2019/11/07/125044
-
手元のコンピューターのユーザー名(ホームフォルダの名前)を確認。 半角アルファベットじゃない文字(日本語とか記号とか)が含まれている場合、不具合の原因になりがちです。 たぶん変更できない?ので新しいユーザーを作って引っ越すのがいいと思います。
-
OSのソフトウェア・アップデートをすべて適用して再起動。
-
https://cran.r-project.org/ から最新版のR本体(≥4.0.0)をダウンロードしてインストール。 既にインストールしてある場合はバージョンを確認。
-
https://rstudio.com/products/rstudio/download/#download から最新版のRStudio(≥1.3.1073)をダウンロードしてインストール。 既にインストールしてある場合はバージョンを確認。
-
Windowsの場合はRtoolsも必要かも。次のページに従って設定:
https://cran.r-project.org/bin/windows/Rtools/ -
RStudioを起動し、左側のConsoleで
install.packages("tidyverse", type = "binary")
を実行。 何か訊かれたらyes
と回答。 パッケージがたくさんインストールされます。 -
Consoleに
update.packages(type = "binary")
と打ち込んで全パッケージ更新。 -
Consoleに
library(tidyverse)
と打ち込んでパッケージを読み込み、 以下のようなメッセージと共に読み込まれるのを確認:> library(tidyverse) ── Attaching packages ───────────────────────────── tidyverse 1.3.0 ── ✓ ggplot2 3.3.2 ✓ purrr 0.3.4 ✓ tibble 3.0.3 ✓ dplyr 1.0.2 ✓ tidyr 1.1.2 ✓ stringr 1.4.0 ✓ readr 1.3.1 ✓ forcats 0.5.0 ── Conflicts ──────────────────────────────── tidyverse_conflicts() ── x dplyr::filter() masks stats::filter() x dplyr::lag() masks stats::lag()
講義資料
全6回。リンク先では←→キーで戻る・進む。
- 2020-10-03 13:00 | 入門1: 前処理とは。Rを使うメリット。Rの基本。
- 2020-10-03 14:40 | 入門2: データ可視化の重要性と方法。
- 2020-10-10 13:00 | データ構造の処理1: 抽出、集約など。
- 2020-10-10 14:40 | データ構造の処理2: 結合、変形など。
- 2020-10-17 13:00 | データ内容の処理: 数値、文字列、日時など。
- 2020-10-17 14:40 | 実践: 現実の問題に対処してみる