🎯 探索性資料分析概述
分析目標與學術意義
研究目標:透過系統性的描述統計與視覺化分析,深入理解Garmin使用者的睡眠與活動行為模式,為後續多變量分析奠定實證基礎。
學術價值:首次在此特定群體中量化活動與睡眠的關聯性,驗證「活動-睡眠質量互補假設」。
分析期間
2.7
年 (2020.10-2023.06)
研究對象
71
位使用者
有效記錄
1,031
筆配對資料
平均記錄
14.5
筆/用戶
🛏️ 睡眠指標深度分析
📋 描述統計摘要
| 睡眠指標 | 平均值 ± 標準差 | 中位數 | 分布特徵 |
|---|---|---|---|
| 總睡眠時間(小時) | 7.47 ± 1.46 | 7.32 | 略右偏(偏度=0.632) |
| 深睡眠比例(%) | 16.7 ± 17.2 | 12.1 | 顯著右偏(偏度=1.619) |
| 睡眠效率(%) | 99.7 ± 3.4 | 100.0 | 極度聚集(峰度=753.7) |
🔍 學術發現
重要洞察
- WHO標準符合:平均睡眠7.47小時落在建議範圍(7-9小時)
- 個體差異顯著:深睡比例變異係數達103%
- 測量限制:睡眠效率變異性極低,建議後續分析排除
- 分布特徵:25筆異常值(2.4%)為可接受範圍
睡眠時長分布
7.47h
平均值 ± 1.46h
✓ 符合WHO建議範圍
深睡比例變異
103%
變異係數
⚠️ 個體差異顯著
異常值比例
2.4%
25筆記錄
✓ 可接受範圍
睡眠效率
99.7%
平均值 ± 3.4%
❌ 變異性過低
🏃 活動指標深度分析
📋 描述統計摘要
| 活動指標 | 平均值 ± 標準差 | 中位數 | 分布特徵 |
|---|---|---|---|
| 日步數 | 2,800 ± 3,703 | 569 | 高度右偏(偏度=1.393) |
| 活動熱量(kcal) | 194 ± 311 | 36 | 極度右偏(偏度=2.881) |
| 活動距離(m) | 2,028 ± 2,840 | 435 | 高度右偏(偏度=1.401) |
| 平均壓力水平 | 27.7 ± 14.5 | 27 | 接近常態(偏度=0.872) |
⚠️ 關鍵發現
多重共線性警示
步數 ↔ 活動距離:r = 0.991
極高相關性表明絕對需要PCA降維處理,以避免多變量分析中的統計偏誤。
久坐生活型態
75%使用者日步數 < 5,068步,遠低於WHO建議的10,000步,反映現代久坐生活模式。
低活動群體 (75%)
日步數
< 5,068步
活動熱量
< 126 kcal
生活型態
久坐為主
健康風險
需要改善
高活動群體 (25%)
日步數
> 5,068步
活動熱量
> 126 kcal
生活型態
相對活躍
健康狀況
較為良好
📈 變數關聯性深度分析
🧠 「活動-睡眠質量互補假設」驗證
理論基礎:運動生理學理論認為適度活動能促進睡眠效率,但可能縮短總睡眠時間。
統計證據:我們發現活動量與睡眠時長呈弱負相關,與深睡比例呈弱正相關,支持質量互補假設。
🎯 核心關聯性發現
步數 → 睡眠時長
r = -0.096
弱負相關
活動熱量 → 睡眠時長
r = -0.102
弱負相關
步數 → 深睡比例
r = 0.099
弱正相關
步數 ↔ 活動距離
r = 0.991
強正相關 ⚠️
睡眠時長 ↔ 深睡比例
r = -0.193
弱負相關
壓力 → 睡眠時長
r = -0.046
極弱負相關
🔬 統計解釋與生理學意義
- 質量互補效應:活動量高的使用者睡眠時間略短但深睡品質更好
- 個體適應性:規律運動者可能需要較少的總睡眠時間
- 恢復機制:深睡眠在活躍個體中扮演更重要的恢復角色
- 共線性問題:活動指標間的強關聯需要降維處理
⚠️ 異常值模式分析
📊 異常值分布特徵
- 睡眠時間:2.4%異常值,主要為過長睡眠
- 深睡比例:7.6%異常值,反映個體生理差異
- 活動指標:1.6-6.3%異常值,變異範圍合理
- 壓力水平:2.5%異常值,量表邊界效應
🎓 學術處理原則
- 保留原則:深睡比例異常值可能反映真實的個體差異
- 生理合理性:結合統計與生理學知識判斷
- 敏感性分析:比較包含/排除異常值的結果差異
- 透明報告:詳細記錄所有處理決策
🎯 EDA總結與多變量分析策略
📋 主要發現總結
- 睡眠模式健康:平均睡眠時間符合WHO標準,但個體差異顯著
- 活動不足問題:75%用戶活動量偏低,反映久坐生活型態
- 質量互補證據:支持「活動促進睡眠品質但縮短時間」假設
- 多重共線性:活動指標間極高相關性需要降維處理
🔬 多變量分析策略建議
變數選擇
- 核心睡眠變數:sleep_hours, deep_sleep_ratio
- 核心活動變數:steps, activeKilocalories (需PCA)
- 輔助變數:averageStressLevel
- 排除變數:sleep_efficiency (變異性過低)
分析方法
- PCA降維:解決多重共線性問題
- K-means聚類:識別行為模式群體
- ANOVA:群體間差異檢定
- 線性迴歸:睡眠品質預測模型