戯言日記

Rの話だと思ったら唐突にサバゲーが混じってくる何か。

2021-04-01から1ヶ月間の記事一覧

「MAD」が問題を抱えすぎている気がする

一昔前に某動画サイトでうpされていたアレの話とかではなくて。 データの標準化の話を調べていた時、「中央絶対偏差(MAD)」に行き当たったのが事の発端。 doubtpad.hatenablog.com このMAD、バラつきに関する指標の1つで、標準偏差と比較すると外れ値に強…

R上でロバストな標準化をしたい

データ分析をする際には各データを標準化するのが一般的だが、大抵の場合は特に何も考えずに平均0、分散1になるよう処理するのが基本だと思う。 これはRならscale()で実行できる。 ただし、この方法では外れ値によって大きく影響を受けることがある1。 ここ…