統計学の基礎の基礎

  • CategoryScience

  • View101174

Report
  • 統計学の基礎の基礎 2015/10/2 Ken’ichi Matsui
  • 自己紹介 ・Facebookページ   https://www.facebook.com/matsukenbook ・Twitterアカウント   @kenmatsu4 ・Qiitaでブログを書いています(統計、機械学習、Python等)    http://qiita.com/kenmatsu4    (3500 contributionを超えました!) ・趣味    - バンドでベースを弾いたりしています。    - 主に東南アジアへバックパック旅行に行ったりします    (カンボジア、ミャンマー、バングラデシュ、新疆ウイグル自治区 etc) 旅行の写真 : http://matsu-ken.jimdo.com Twitterアイコン http://qiita.com/kenmatsu4 http://matsu-ken.jimdo.com
  • コレですw
  • ・統計学で何ができる? ・統計学の2つの目的 ・グラフを描こう ・基本統計量 平均、分散、標準偏差って何? ・相関係数 ・標本調査(母集団と標本) ・推測 ・仮説検定(さわりだけ) ・おわりに 今日のアジェンダ
  • 1.統計学で何ができる?
  • 薬の効果の検定 グル プーごとに条件を変えて、その結果に違いが あるかを検定する とある薬を飲んだ グル プー とある薬を飲んでいない グル プー
  • Webサイトのレイアウト変更 A/Bテスト 検索 広告 検索 広告 広告パターンA 広告パターンB 変更してみる
  • A/Bテスト 取得したデータ クリックした クリックしない 広告パターンA 25 (18%) 117 (82%) 広告パターンB 10 (24%) 32 (76%) Webサイトのレイアウト変更 検索 広告 検索 広告 広告パターンA 広告パターンB 変更してみる
  • A/Bテスト クリックした クリックしない 広告パターンA 25 (18%) 117 (82%) 広告パターンB 10 (24%) 32 (76%) 取得したデータ Webサイトのレイアウト変更 検索 広告 検索 広告 広告パターンA 広告パターンB 変更してみる どちらが効果がある?
  • A/Bテスト クリックした クリックしない 広告パターンA 25 (18%) 117 (82%) 広告パターンB 10 (24%) 32 (76%) 取得したデータ どちらが効果がある? Webサイトのレイアウト変更 検索 広告 検索 広告 広告パターンA 広告パターンB 変更してみる 実は差がない!
  • > ab_data chisq.test(ab_data) Pearson's Chi-squared test with Yates' continuity correction data: ab_data X-squared = 0.45721, df = 1, p-value = 0.4989 A/Bテスト 計算してみると、 もしこの実験を繰り返すことが できたとすると、49.9%くらいの 確率でこれくらい(これ以上)の差は 発生しうる。 → 施策に効果があるとは言えない!
  • 例:とあるアイスクリーム店の前の通行人と売上の関係 回帰分析
  • 2.統計学の2つの目的
  • ・記述統計 ・推測統計
  • 記述統計 トータル 最高スコア 990 最低スコア 10 平均スコア 583.7 標準偏差 170.1 例:TOEIC公開テスト第202回の試験 → 第202回の受験者全員を対象にデータを要約 http://www.toeic.or.jp/toeic/about/data/data_avelist/data_ave01_04.html http://www.toeic.or.jp/toeic/about/data/data_avelist/data_dist01_04.html http://www.toeic.or.jp/toeic/about/data/data_avelist/data_ave01_04.html http://www.toeic.or.jp/toeic/about/data/data_avelist/data_dist01_04.html
  • 記述統計 トータル 最高スコア 990 最低スコア 10 平均スコア 583.7 標準偏差 170.1 例:TOEIC公開テスト第202回の試験 → 第202回の受験者全員を対象にデータを要約 http://www.toeic.or.jp/toeic/about/data/data_avelist/data_ave01_04.html http://www.toeic.or.jp/toeic/about/data/data_avelist/data_dist01_04.html 手元のデータを 要約している。 http://www.toeic.or.jp/toeic/about/data/data_avelist/data_ave01_04.html http://www.toeic.or.jp/toeic/about/data/data_avelist/data_dist01_04.html
  • 推測統計 例:工場での製品生産、一部の経済統計 → サンプル(標本)から全体(母集団)を推測 標本抽出 標本抽出 ex:家計調査 ex:製品の重さ
  • 推測統計 例:工場での製品生産、一部の経済統計 → サンプル(標本)から全体(母集団)を推測 平均、標準偏差を計算 平均、標準偏差を計算 ex:製品の重さ ex:家計調査
  • 推測統計 例:工場での製品生産、一部の経済統計 → サンプル(標本)から全体(母集団)を推測 推測する 推測する ex:製品の重さ ex:家計調査
  • 3. グラフをたくさん描こう
  • ID total_bill tip gender smoker day time size 0 16.99 1.01 Female No Sun Dinner 2 1 10.34 1.66 Male No Sun Dinner 3 2 21.01 3.5 Male No Sun Dinner 3 3 23.68 3.31 Male No Sun Dinner 2 4 24.59 3.61 Female No Sun Dinner 4 5 25.29 4.71 Male No Sun Dinner 4 6 8.77 2 Male No Sun Dinner 2 7 26.88 3.12 Male No Sun Dinner 4 … … … … … … … … 使用するデータ 例:飲食店の顧客別支払い金額データ
  • ヒストグラム 例:飲食店の顧客別支払い金額データ 支払額(ドル) 人数 https://github.com/mwaskom/seaborn-data
  • ヒストグラム ある幅に入っているデータの個数(度数)を、 棒の縦の長さで表したグラフ。 (※ 面積が度数と比例するように描く)
  • 例:飲食店の顧客別支払い金額データ(曜日別) 支払額(ドル) 人数 ヒストグラム
  • 例:曜日ごと、性別ごと売上高 箱ヒゲ図 50%点 25%点 75%点 最小値 最大値 外れ値
  • 箱ヒゲ図:データも一緒にプロット 50%点 25%点 75%点 最小値 最大値 外れ値 例:曜日ごと、性別ごと売上高
  • 箱ヒゲ図:外れ値の計算方法 Q1(25%点) - 1.5×IQRより小さい Q2(75%点) + 1.5×IQRより大きい 外れ値 外れ値 https://en.wikipedia.org/wiki/Interquartile_range https://en.wikipedia.org/wiki/Interquartile_range
  • 例:飲食店の総支払額 vs チップ額 散布図
  • 散布図 (+回帰分析) 例:飲食店の総支払額 vs チップ額
  • 時系列グラフ (2軸グラフ) 例:日経平均株価、為替(ドル円) 為替(ドル円) 日経平均株価
  • 4. 基本統計量って何?
  • ・平均 ・分散 ・標準偏差
  • 基本統計量 ・代表値 … 分布全体を一つの数で       表したもの 平均値、中央値、最頻値など 青が平均が大きく、 赤が平均が小さい
  • 基本統計量 ・散布度 … データの散らばりの程度を 数値化したもの 分散、標準偏差、変動係数など 青が散らばりが大きく、 赤が散らばりが小さい。 平均は同じ。
  • ここで、ちょっとだけ
  • 数学の話をします
  • 統計学ではデータを 数字で表すので 少し数学が必要に なるのです
  • 変数とは x = 5
  • 変数とは x = 5 a = 10
  • 変数とは x = 5 a = 10 a⇥ x = 10⇥ 5 = 50
  • 変数とは a = 10 x = 3 a⇥ x = 10⇥ 3 = 30
  • 変数とは:Excelで言うと A B C D 1 2 x 5 3 a 10 4 5 a × x 50 6 7 = B2 * B3 という数式が入っている
  • 変数とは:Excelで言うと A B C D 1 2 x 3 3 a 10 4 5 a × x 30 6 7 = B2 * B3 という数式が入っている
  • 変数とは:Excelで言うと A B C D 1 2 x 3 3 a 10 4 5 a × x 30 6 7 セルに数値を入れているのと同じこと! = B2 * B3 という数式が入っている
  • 変数とは:データを扱う 名前 数学 田中 96 高橋 63 鈴木 85 渡辺 66 清水 91 木村 89 山本 77
  • 変数とは:データを扱う 名前 数学 田中 96 高橋 63 鈴木 85 渡辺 66 清水 91 木村 89 山本 77 ID  数学 1 96 2 63 3 85 4 66 5 91 6 89 7 77 IDにする
  • 変数とは:データを扱う 名前 数学 田中 96 高橋 63 鈴木 85 渡辺 66 清水 91 木村 89 山本 77 ID  数学 1 96 2 63 3 85 4 66 5 91 6 89 7 77 IDにする 変数にする ID  数学 1 2 3 4 5 6 7 x1 x2 x3 x4 x5 x6 x7
  • 変数とは:データを扱う 名前 数学 田中 96 高橋 63 鈴木 85 渡辺 66 清水 91 木村 89 山本 77 ID  数学 1 96 2 63 3 85 4 66 5 91 6 89 7 77 IDにする 変数にする x5:右下の数字(添字)はデータのIDを表す ID  数学 1 2 3 4 5 6 7 x1 x2 x3 x4 x5 x6 x7
  • 合計する 名前   数学  田中 96 高橋 63 鈴木 85 渡辺 66 清水 91 木村 89 山本 77 合計 567 = sum(B2 : B8) という数式が入っている
  • 合計する ID  数学  1 2 3 4 5 6 7 合計 x1 x2 x3 x4 x5 x6 名前   数学  田中 96 高橋 63 鈴木 85 渡辺 66 清水 91 木村 89 山本 77 合計 567 x7 x1 + x2 + x3 + x4 + x5 + x6 + x7
  • 合計する ID  数学  1 2 3 4 5 6 7 合計 名前   数学  田中 96 高橋 63 鈴木 85 渡辺 66 清水 91 木村 89 山本 77 合計 567 書くのが大変!!! x1 x2 x3 x4 x5 x6 x7 x1 + x2 + x3 + x4 + x5 + x6 + x7
  • 合計する Excelには  「B2 + B3 + B4 + B5 + B6 + B7 + B8」 を省略する短い書き方  「= sum(B2 : B8) 」 が存在する。
  • 合計する 数学には? Excelには  「B2 + B3 + B4 + B5 + B6 + B7 + B8」 を省略する短い書き方  「= sum(B2 : B8) 」 が存在する。
  • 合計する あります! x1 + x2 + x3 + x4 + x5 + x6 + x7 = 7X i=1 xi
  • 合計する あります! i は1から始まる という意味 i は7まで続きます、 という意味 この範囲の i について 全部足し合わせる、 という意味 = 7X i=1 xi x1 + x2 + x3 + x4 + x5 + x6 + x7
  • ・平均 ・分散 ・標準偏差 戻ります。
  • 平均
  • 平均 ご存知「平均」です。 データを全部足し合わせて、データの数で割 ります。 x̄ = 1 7 (x1 + x2 + x3 + x4 + x5 + x6 + x7) = 1 7 7X i=1 xi
  • 分散・標準偏差 データの散らばりの程度を数値化したもの
  • 分散・標準偏差 分散 = 1 N NX i=1 (xi � x̄)2 標準偏差 = vuut 1 N NX i=1 (xi � x̄)2
  • 分散・標準偏差 分散 = 1 N NX i=1 (xi � x̄)2 標準偏差 = vuut 1 N NX i=1 (xi � x̄)2 わけわからないですよね?
  • 分散・標準偏差 「偏差」とは? ID   点数   偏差   1 96 96-81= 15 2 63 63-81= -183 85 85-81= 4 4 66 66-81= -155 91 91-81= 10 6 89 89-81= 8 7 77 77-81= -4
  • 分散・標準偏差 「偏差」とは? ID   点数   偏差   1 96 96-81= 15 2 63 63-81= -183 85 85-81= 4 4 66 66-81= -155 91 91-81= 10 6 89 89-81= 8 7 77 77-81= -4 各データの平均値からの差のこと
  • 分散・標準偏差:の前に平均偏差 この、偏差の平均値を取りたいが・・・ ID  偏差   1 15 2 -18 3 4 4 -15 5 10 6 8 7 -4 全部足すと 0 になってしまう (左右釣り合いが取れるところが 平均値なので)
  • 分散・標準偏差:の前に平均偏差 ID  偏差    プラス化 1 15 15 2 -18 18 3 4 4 4 -15 15 5 10 10 6 8 8 7 -4 4 反転 なので、マイナスを取ってやる
  • 分散・標準偏差:の前に平均偏差 ID  偏差    プラス化 1 15 15 2 -18 18 3 4 4 4 -15 15 5 10 10 6 8 8 7 -4 4 平均 10.57 なので、マイナスを取り除いてやる 偏差の平均 = 10.57 平均からの距離を 平均したもの
  • 分散・標準偏差:の前に平均偏差 = 1 n nX i=1 |xi � x̄| 平均偏差 偏差を足し合わせてデータ数:nで割る。 つまり平均をとっている。 偏差を全てプラスに変える ために絶対値を取る。 ID  偏差    プラス化 1 15 15 2 -18 18 3 4 4 4 -15 15 5 10 10 6 8 8 7 -4 4 平均 10.57
  • 分散・標準偏差 先ほどは下記の図のように、平均値からの差を 線の長さで表現していましたが、
  • 分散・標準偏差 今度はマイナスの値を取り除くために2乗します。 2乗するということは面積であると考えられます。
  • 分散・標準偏差 + + + = いろいろなサイズの正方形を 足して、データの個数で割ると、 面積の平均が求まる。 これが分散の直感的イメージ。 + … + + ÷ 個数 面積の平均値 ① ② ③ ④ n
  • 分散・標準偏差 偏差 = 1 n nX i=1 (xi � x̄)2分散 二乗した偏差を足し合わせてデータ数:nで割る。 この場合も二乗偏差の平均をとっている。 つまり、オレンジの面積の平均になる。 偏差を全てプラスに変えるために二乗する。 「二乗する」ということは面積をイメージして良い。
  • 分散・標準偏差 長さ: 5 長 さ : 5 面積 = 5 x 5 = 25 p 長さ: 5 ルート 面積が長さになる! の計算をすると
  • 分散・標準偏差 長さ: 5 長 さ : 5 面積 = 5 x 5 = 25 p 長さ: 5 ルート 面積が長さになる! の計算をすると 標準偏差 = vuut 1 N NX i=1 (xi � x̄)2 単位を長さに戻した
  • 分散・標準偏差 この全データが 中心から離れている 具合の平均的な値
  • 名前  数学  偏差 偏差2乗 人数で割る ルート 田中 96 15 225 高橋 63 -18 324 鈴木 85 4 16 渡辺 66 -15 225 清水 91 10 100 木村 89 8 64 山本 77 -4 16 合計 970 138.57 11.77 標準偏差は11.77 分散・標準偏差 平均 81.00
  • Ex: 偏差値 名前  数学  偏差 標準偏差 何個分? ← × 10倍 ← + 50 田中 96 15 1.27 12.74 62.74 高橋 63 -18 -1.53 -15.29 34.71 鈴木 85 4 0.34 3.40 53.40 渡辺 66 -15 -1.27 -12.74 37.26 清水 91 10 0.85 8.50 58.50 木村 89 8 0.68 6.80 56.80 山本 77 -4 -0.34 -3.40 46.60 平均 81.00 標準偏差 11.77 これが「偏差値」
  • 5.相関係数
  • 相関係数とは 支払総額 チップ
  • 相関係数とは 支払総額 チップ 「支払総額」が増えると 「チップ」も増える傾向にある → 相関している
  • 相関係数とは 支払総額 チップ 「支払総額」が増えると 「チップ」も増える傾向にある → 相関している 相関係数:0.675734
  • 相関係数とは
  • 相関係数とは
  • 相関係数とは 相関係数: 1 は 完全に横軸と縦軸が 依存関係にあり、一方が増えると もう一方も増えている。
  • 相関係数とは 相関係数: -1 は やはり、完全に横軸と縦軸が 依存関係にあり、一方が増えると もう一方が減っている。
  • 相関係数とは 相関係数: 0 は 横軸と縦軸が全くなく 一方が増えてももう一方は それとは関係なく値が決まる。
  • 相関係数とは 式で表すと・・・ r = 1 n Pn i=1(xi � x̄)(yi � ȳ)q 1 n Pn i=1(xi � x̄)2 q 1 n Pn i=1(yi � ȳ)2
  • 相関係数とは 式で表すと・・・ さっきの標準偏差と一緒! r = 1 n Pn i=1(xi � x̄)(yi � ȳ)q 1 n Pn i=1(xi � x̄)2 q 1 n Pn i=1(yi � ȳ)2
  • 相関係数とは 式で表すと・・・ さっきの標準偏差と一緒! r = 1 n Pn i=1(xi � x̄)(yi � ȳ)q 1 n Pn i=1(xi � x̄)2 q 1 n Pn i=1(yi � ȳ)2 2乗しているので必ずプラス
  • 相関係数とは 式で表すと・・・ r = 1 n Pn i=1(xi � x̄)(yi � ȳ)q 1 n Pn i=1(xi � x̄)2 q 1 n Pn i=1(yi � ȳ)2 これを共分散という
  • 相関係数とは 共分散 1 n nX i=1 (xi � x̄)(yi � ȳ) 横軸の平均からの距離 (偏差) 平均より小さいところは マイナスになる。
  • 相関係数とは 共分散 1 n nX i=1 (xi � x̄)(yi � ȳ) 縦軸の平均からの距離 (偏差) 平均より小さいところは マイナスになる。
  • 相関係数とは 平均値 相関係数 : 0.8 1 n nX i=1 (xi � x̄)(yi � ȳ)
  • 相関係数とは マイナス マイナス プラス プラス 相関係数 : 0.8 1 n nX i=1 (xi � x̄)(yi � ȳ)
  • 相関係数とは マイナス マイナス プラス プラス 相関係数 : 1 1 n nX i=1 (xi � x̄)(yi � ȳ)
  • 相関係数とは マイナス マイナス プラス プラス 相関係数 : -1 1 n nX i=1 (xi � x̄)(yi � ȳ)
  • 相関係数とは マイナス マイナス プラス プラス 相関係数 : 0 1 n nX i=1 (xi � x̄)(yi � ȳ)
  • 相関係数とは 注意! 相関というものは、因果関係とは別の概念
  • 相関係数とは 注意! 相関というものは、因果関係とは別の概念 例: アイスクリームの売り上げが伸びると 水死者数も確実に増える。
  • 例: アイスクリームの売り上げが伸びると 水死者数も確実に増える。 相関係数とは 注意! 相関というものは、因果関係とは別の概念 アイスクリームを買うと、誰かが溺 死するわけではなく、ともに 夏に多いと言うこと 水死者 数↑ アイス 売上↑ 夏の気温
  • 例: アイスクリームの売り上げが伸びると 水死者数も確実に増える。 相関係数とは 注意! 相関というものは、因果関係とは別の概念 アイスクリームを買うと、誰かが溺 死するわけではなく、ともに 夏に多いと言うこと 水死者 数↑ アイス 売上↑ 夏の気温 因果関係は統計学の外の ドメイン知識で判断する。
  • 相関係数とは https://ja.wikipedia.org/wiki/相関関係と因果関係 https://ja.wikipedia.org/wiki/%E7%9B%B8%E9%96%A2%E9%96%A2%E4%BF%82%E3%81%A8%E5%9B%A0%E6%9E%9C%E9%96%A2%E4%BF%82
  • 6. 標本調査(母集団と標本)
  • サンプル(標本)から全体(母集団)を推測 標本調査 (母集団と標本) 母集団 特徴や傾向を知りたい 集団全体のこと 標本 実際に調査を行いデータを 取る母集団の一部
  • サンプル(標本)から全体(母集団)を推測 標本抽出 標本調査 (母集団と標本) 母集団 特徴や傾向を知りたい 集団全体のこと 標本 実際に調査を行いデータを 取る母集団の一部 対象の母集団に対して偏りなく ランダムに抽出することが重要
  • 標本調査 (母集団と標本) 電話調査 (日中) 標本 標本抽出 日本人全体 推測できる?
  • 標本調査 (母集団と標本) 標本 標本抽出 日本人全体 できない。 日中電話に出れる 人の全体になる。 電話調査 (日中) 推測できる?
  • 7. 推測
  • 正規分布 統計学で最も重要な確率分布。 データの分布が平均値を頂点とし た左右対称の山形で表示される。 この面積が、確率を 表している。 赤い線の下の面積を全部 足すと1になるようになっている。 推測:正規分布とは
  • コイン投げ 表は1 裏は0 [1, 0, 1, 0, 0, 0, 0, 1, 0, 0, 0, 1, 0, 0, 1, 0, 1, 0, 0, 1] ランダムに20回投げると、 このようなデータとなる 推測:正規分布とは
  • コイン投げ 表は1 裏は0 [1, 0, 1, 0, 0, 0, 0, 1, 0, 0, 0, 1, 0, 0, 1, 0, 1, 0, 0, 1] ランダムに20回投げると、 このようなデータとなる 表の数を数えると 7 になる。 推測:正規分布とは
  • コイン投げ 9 12 11 4 10 12 10 9 9 9 8 9 10 11 11 8 12 11 15 7 16 8 11 10 13 10 11 12 7 11 11 11 8 9 10 13 12 10 12 8 11 8 12 8 10 12 11 11 13 13 7 11 8 13 12 7 5 9 12 9 8 11 11 10 10 10 10 5 16 6 14 9 10 13 11 7 11 10 8 11 13 8 9 13 7 12 9 11 10 10 7 12 8 12 11 6 14 9 13 13 20回1セットとして、それを100セット実施 すると下記のようなデータになる。 推測:正規分布とは
  • コイン投げ 10,000セット実施してグラフにしてみる。 推測:正規分布とは
  • コイン投げ 10,000セット実施してグラフにしてみる。 これがほぼ 正規分布! 推測:正規分布とは
  • コイン投げ 10,000セット実施してグラフにしてみる。 これがほぼ 正規分布! なので、2択でそれぞれ の確率が50%という 完全なランダムの 積み重ねでできたもの。 推測:正規分布とは
  • 100万件データのヒストグラム 平均: 30、 標準偏差: 5 推測:正規分布とは
  • 100万件データのヒストグラム 平均: 30、 標準偏差: 5 954,375 個 22,878 個22,747 個 標準偏差左右に 2つ分ずつ 数えてみた 標準偏差:5 推測:正規分布とは
  • 100万件データのヒストグラム 平均: 30、 標準偏差: 5 954,375 個 22,878 個22,747 個 95.44% 2.29%2.27% 標準偏差2つ分 数えてみた 標準偏差左右に 2つ分ずつ 推測:正規分布とは
  • 100万件データのヒストグラム 平均: 30、 標準偏差: 5 954,375 個 22,878 個22,747 個 95.44% 2.29%2.27% 数えてみた 標準偏差左右に 2つ分ずつ 真ん中の標準偏差2つ分の範囲に 入る確率は約95%! 推測:正規分布とは
  • 推測:母集団の平均値の推定 母集団 標本抽出 標本 ここから100個 標本として抽出する
  • 推測:母集団の平均値の推定 標本 標本平均:30.59 標本標準偏差: 5.03 標本平均と、標本標準偏差を計算する
  • 推測:母集団の平均値の推定 標本 標本平均と、標本標準偏差を計算する この標本標準偏差を √標本数 で割る。 0.503 標本平均:30.59 標本標準偏差: 5.03 この例の場合、 √100 = 10 で割る
  • 推測:母集団の平均値の推定 標本 標本平均と、標本標準偏差を計算する 標準偏差を2つ分 ずつの区間 標本平均:30.59 標本標準偏差: 5.03 0.503 この標本標準偏差を √標本数 で割る。
  • 推測:母集団の平均値の推定 標本 標本平均:30.50 拡大 0.503 29.58 31.60 サンプリングを100回 行うと、そのうちの95% は、真の平均値を捕捉 できる。
  • 推測:標本平均の標準偏差が小さくなる理由 母集団 標本抽出 標本抽出をするたびに、 少し違う形の分布となる → 標本平均が毎回違う 標本 ここから100個 標本として抽出する
  • 何回もやってみる。母集団のミニ版がたくさんできる 推測:標本平均の標準偏差が小さくなる理由
  • 何回もやってみる。母集団のミニ版がたくさんできる個々の平均が母集団の 平均の”30”に近い! 推測:標本平均の標準偏差が小さくなる理由
  • 標本 平均値の分布 推測:標本平均の標準偏差が小さくなる理由 標本平均を集めたもの をまたグラフに書いてみる
  • 平均値の分布 拡大してみる。 推測:標本平均の標準偏差が小さくなる理由
  • 拡大してみる。 平均値の分布 推測:標本平均の標準偏差が小さくなる理由 確かに、標本サイズ100のルート、√100 = 10で 元の標準偏差:5を割ったものとなっている!
  • 拡大してみる。 平均値の分布 29.0 31.0 推測:標本平均の標準偏差が小さくなる理由 29.0~31.0の区間を取ると、 95%の標本平均が入っている
  • 推測:標本平均の標準偏差が小さくなる理由 50回試してみると、ほとんどが真の平均30 を捉えられている。
  • 8.仮説検定 (さわりだけ)
  • 仮説検定:新入生向け試験の点数 毎年の結果から、平均:450点, 標準偏差: 80点 の正規分布で近似できるとわかっている。 これを母集団とする。 母集団
  • 仮説検定:新入生向け試験の点数 英語力が変わらないとすると、「効果がない」を 表現するのは、今までの平均点と同じ450点 母集団 450点 帰無仮説:「差がない」「効果がない」を表す仮説
  • 仮説検定:新入生向け試験の点数 今年の新入生の結果 標本 [430 534 504 463 520 504 575 569 437 402 402 613 602 494 412 467 579 486 450 531 498 392 489 424 461 415 417 386 545 511 372 555 727 391 430 309] 平均:480点、標準偏差:82点、36人のデータ
  • 仮説検定:新入生向け試験の点数 今年の新入生の結果 平均値の分布 平均:480点、標準偏差:82点、36人のデータ → 平均値の標準偏差は 82÷ √36 = 13.7 453.1 507.8
  • 仮説検定:新入生向け試験の点数 今年の新入生の結果 平均値の分布 平均:480点、標準偏差:82点、36人のデータ → 平均値の標準偏差は 82÷ √36 = 13.7 453.1 507.8 この幅に、帰無仮説の値 450点が入らないので 今年の新入生は「有意に 点数が高い」と言える!
  • 参考 ・「ビジネスに活かすデータマイニング」 尾崎 隆 著 ・「日本統計学会公式認定 統計検定3級対応   データの分析」日本統計学会編 ・「データサイエンティスト養成読本」 ・「【統計学】初めての「標準偏差」(統計学に挫折 しないために)」 http://goo.gl/yM0QHU ・ 今日使ったプログラムコード https://goo.gl/Wckrdm http://goo.gl/yM0QHU https://goo.gl/Wckrdm
Description
統計学の基礎の基礎 2015/10/2 Ken’ichi Matsui 自己紹介 ・Facebookページ   https://www.facebook.com/matsukenbook ・Twitterアカウント   @kenmatsu4…