📊 探索性資料分析

描述統計 ∙ 相關性分析 ∙ 分布特徵探索

🎯 探索性資料分析概述

分析目標與學術意義

研究目標:透過系統性的描述統計與視覺化分析,深入理解Garmin使用者的睡眠與活動行為模式,為後續多變量分析奠定實證基礎。

學術價值:首次在此特定群體中量化活動與睡眠的關聯性,驗證「活動-睡眠質量互補假設」。

分析期間
2.7
年 (2020.10-2023.06)
研究對象
71
位使用者
有效記錄
1,031
筆配對資料
平均記錄
14.5
筆/用戶

🛏️ 睡眠指標深度分析

📋 描述統計摘要

睡眠指標 平均值 ± 標準差 中位數 分布特徵
總睡眠時間(小時) 7.47 ± 1.46 7.32 略右偏(偏度=0.632)
深睡眠比例(%) 16.7 ± 17.2 12.1 顯著右偏(偏度=1.619)
睡眠效率(%) 99.7 ± 3.4 100.0 極度聚集(峰度=753.7)

🔍 學術發現

重要洞察

  • WHO標準符合:平均睡眠7.47小時落在建議範圍(7-9小時)
  • 個體差異顯著:深睡比例變異係數達103%
  • 測量限制:睡眠效率變異性極低,建議後續分析排除
  • 分布特徵:25筆異常值(2.4%)為可接受範圍
睡眠時長分布
7.47h
平均值 ± 1.46h
✓ 符合WHO建議範圍
深睡比例變異
103%
變異係數
⚠️ 個體差異顯著
異常值比例
2.4%
25筆記錄
✓ 可接受範圍
睡眠效率
99.7%
平均值 ± 3.4%
❌ 變異性過低

🏃 活動指標深度分析

📋 描述統計摘要

活動指標 平均值 ± 標準差 中位數 分布特徵
日步數 2,800 ± 3,703 569 高度右偏(偏度=1.393)
活動熱量(kcal) 194 ± 311 36 極度右偏(偏度=2.881)
活動距離(m) 2,028 ± 2,840 435 高度右偏(偏度=1.401)
平均壓力水平 27.7 ± 14.5 27 接近常態(偏度=0.872)

⚠️ 關鍵發現

多重共線性警示

步數 ↔ 活動距離:r = 0.991

極高相關性表明絕對需要PCA降維處理,以避免多變量分析中的統計偏誤。

久坐生活型態

75%使用者日步數 < 5,068步,遠低於WHO建議的10,000步,反映現代久坐生活模式。

低活動群體 (75%)

日步數 < 5,068步
活動熱量 < 126 kcal
生活型態 久坐為主
健康風險 需要改善

高活動群體 (25%)

日步數 > 5,068步
活動熱量 > 126 kcal
生活型態 相對活躍
健康狀況 較為良好

📈 變數關聯性深度分析

🧠 「活動-睡眠質量互補假設」驗證

理論基礎:運動生理學理論認為適度活動能促進睡眠效率,但可能縮短總睡眠時間。

統計證據:我們發現活動量與睡眠時長呈弱負相關,與深睡比例呈弱正相關,支持質量互補假設。

🎯 核心關聯性發現

步數 → 睡眠時長
r = -0.096 弱負相關
活動熱量 → 睡眠時長
r = -0.102 弱負相關
步數 → 深睡比例
r = 0.099 弱正相關
步數 ↔ 活動距離
r = 0.991 強正相關 ⚠️
睡眠時長 ↔ 深睡比例
r = -0.193 弱負相關
壓力 → 睡眠時長
r = -0.046 極弱負相關

🔬 統計解釋與生理學意義

  • 質量互補效應:活動量高的使用者睡眠時間略短但深睡品質更好
  • 個體適應性:規律運動者可能需要較少的總睡眠時間
  • 恢復機制:深睡眠在活躍個體中扮演更重要的恢復角色
  • 共線性問題:活動指標間的強關聯需要降維處理

⚠️ 異常值模式分析

📊 異常值分布特徵

  • 睡眠時間:2.4%異常值,主要為過長睡眠
  • 深睡比例:7.6%異常值,反映個體生理差異
  • 活動指標:1.6-6.3%異常值,變異範圍合理
  • 壓力水平:2.5%異常值,量表邊界效應

🎓 學術處理原則

  • 保留原則:深睡比例異常值可能反映真實的個體差異
  • 生理合理性:結合統計與生理學知識判斷
  • 敏感性分析:比較包含/排除異常值的結果差異
  • 透明報告:詳細記錄所有處理決策

🎯 EDA總結與多變量分析策略

📋 主要發現總結

  1. 睡眠模式健康:平均睡眠時間符合WHO標準,但個體差異顯著
  2. 活動不足問題:75%用戶活動量偏低,反映久坐生活型態
  3. 質量互補證據:支持「活動促進睡眠品質但縮短時間」假設
  4. 多重共線性:活動指標間極高相關性需要降維處理

🔬 多變量分析策略建議

變數選擇

  • 核心睡眠變數:sleep_hours, deep_sleep_ratio
  • 核心活動變數:steps, activeKilocalories (需PCA)
  • 輔助變數:averageStressLevel
  • 排除變數:sleep_efficiency (變異性過低)

分析方法

  • PCA降維:解決多重共線性問題
  • K-means聚類:識別行為模式群體
  • ANOVA:群體間差異檢定
  • 線性迴歸:睡眠品質預測模型

探索性分析完成,準備進行多變量統計分析

🔬 多變量分析 PCA降維・聚類分析・ANOVA・迴歸建模