『149』著データ分析に必要な統計の教科書
「📕著 データ分析に必要な統計の教科書」
・まずは目的とデータの形式を見極めるところが出発点
→データの目的には
*全体像を知りたい
*割合を見たい
*変化を見たい
*関係を知りたい
*予測したい
などがある
・上位の目的を達成するためには下位の目的をまず達成すればいいということがわかる
・グラフを「比較/推移」で作成して、反映されたものの背景を探る
・平均値を求めるにはAVERAGE関数を使い、中央値を求めるにはMEDIAN関数を使う
→極端に低い値が紛れている場合は中央値を求めることが実態を反映したものに近くなる
○ 歪度(わいど)
統計で、度数分布の平均値を中心とする非対称性の程度と大きさを表した量。ひずみ度。非対称度。
・標準偏差や分散は平均値と各データがどれくらい離れているかを調べる
・同じ75点でも、平均値が60点の時と、平均値が80点の時の75点とでは、価値が違います。また、平均値が同じ60点でも、標準偏差が10の時の75点と、標準偏差が20の時の75点とでは、やはり価値が違います
・順位を求めるにはRANK.EQ関数を使う
「#N/A」はエラー
・構成比を視覚化するのに適したグラフは円グラフ
・2つの変数の関係の強さを知るには
(相関関係)
→CORREL(コリレーション)関数
→相関関係数は1に近いほどに正の相関が強いということがわかる
→ex.気温とビールの売り上げなら正の相関、気温と携帯カイロの売り上げなら負の相関になる
・相関関係と因果関係とを混同してしまうことはないかと思いますが、意識していないと早合点してしまうことも多いようです。また、あたかも因果関係が有るかのように巧妙に誘導するような言説もあるので注意が必要
・時系列データは「折れ線グラフ」が基本
○ 標準偏差
分散(偏差を2乗した値の平均値)の平方根のこと。標準偏差の値が大きいと、収集したデータの散らばりの度合いが大きいことを示す。標準偏差の値が小さいと、収集したデータの平均値前後にデータが集中していることを示す。厳密に言えば、標準偏差には2種類ある。
・期待値の求め方
ex.
男性で広告を参考にしている人
広告を参考にしている人全体×男性の数×全体の数
構成比を元に、重要な項目を洗い出す分析方法。上位から全体の70%までをクラスAとし、最重要項目と位置付け、90%までをクラスBとし、次に重要な項目と位置付ける。それ以外はクラスCとする。売り上げに貢献している商品や速やかに対処すべき問題などが分かる
○擬似相関
本来の要因が隠されている為、表面的に相関があるように見えること。例えば、朝食を食べる回数と成績に正の相関が見られる場合、実際に関係があるのは朝食を食べるかどうかではなく、きちんとした生活習慣ができているかどうかということであったりする
○度数
値の個数のこと。値そのものではないことに注意。例えば、10.11.16という値があった時、10以上15未満の度数は2となる