🎯 資料清理概述
研究目標與重要性
探討Garmin運動手環使用者之活動量與睡眠品質間的關聯性。資料清理是確保分析結果可信度的關鍵步驟,直接影響後續多變量統計分析的有效性。
原始資料
3,976
筆睡眠記錄
發現問題
4大類
重複、時區、異常值、日期
最終可用
1,031
高品質記錄
資料保留率
25.9%
嚴格品質控制
🌏 關鍵發現:時區問題的系統性識別與修正
重大發現與學術價值
透過分布分析發現原始資料中98.2%的睡眠記錄出現在下午時段,經檢查後確認為UTC與本地時間(GMT+8)的時區混亂問題。此發現對後續分析的有效性具有決定性影響,展現了系統性資料檢查的重要性。
⚠️ 調整前(UTC時間)
看起來極不合理的睡眠分布
98.2%的人在下午睡覺?
1.8%
正常夜間睡眠
98.2%
異常時段睡眠
✅ 調整後(GMT+8時間)
符合正常生理規律
95.5%恢復為夜間睡眠
95.5%
正常夜間睡眠
4.5%
短睡眠或其他
🔬 方法學意義
- 批判性思維:質疑看似「正確」的資料,發現隱藏的系統性問題
- 視覺化診斷:透過分布圖快速識別異常模式
- 可重現性:建立標準化的時區檢查流程
- 影響評估:量化修正對資料品質的改善程度
🔍 系統性資料品質問題診斷
問題一:大量重複記錄(69.3%)
發現:1,076 個使用者-日期組合有多筆睡眠記錄,影響2,754筆記錄
- 可能原因:裝置同步問題、使用者多次記錄、資料庫重複匯入
- 影響範圍:69.3%的記錄涉及重複問題
- 處理策略:保留每天最長的主要睡眠記錄(≥4小時優先)
問題二:時區記錄混亂(98.2% 異常)
發現:初始分析顯示僅1.8%的睡眠發生在正常夜間時段
- 根本原因:資料以UTC時間記錄,但使用者實際在GMT+8時區活動
- 嚴重性:此問題使98.2%的睡眠時間看起來極不合理
- 解決方案:系統性時區修正,95.5%記錄恢復正常
問題三:極端睡眠時長(8筆異常值)
發現:睡眠時長從0小時到20小時的生理不合理值
- 短睡眠:1筆短於30分鐘(可能誤觸啟動)
- 長睡眠:7筆長於14小時(可能裝置故障)
- 極端案例:3筆≥20小時睡眠,且集中於同一位使用者(已去識別化處理)
問題四:日期歸屬邏輯不一致(38.5%)
發現:即使時區調整後,仍有38.5%的記錄日期配對存在問題
- 複雜性:睡眠跨日的歸屬邏輯需要統一標準
- 影響:部分睡眠無法正確配對活動資料
- 最終結果:透過統一邏輯,達成86.9%的配對成功率
🔧 系統性資料清理方法論
📊 清理流程與統計結果
| 處理階段 | 問題識別 | 處理方法 | 數量變化 | 品質改善 |
|---|---|---|---|---|
| 階段1:時區修正 | 98.2%異常睡眠時間 | UTC → GMT+8 轉換 | 3,976 → 3,976 (0筆移除) | 1.8% → 95.5% 正常 |
| 階段2:異常值處理 | 8筆極端睡眠時長 | IQR方法+生理邊界 | 3,976 → 3,968 (8筆移除) | 移除不合理值 |
| 階段3:去重處理 | 69.3%重複記錄 | 保留最長主要睡眠 | 3,968 → 1,214 (2,754筆移除) | 確保唯一性 |
| 階段4:配對整合 | 日期歸屬邏輯 | 統一歸屬策略 | 1,214 → 1,031 (86.9%成功率) | 高品質配對資料 |
🎓 學術價值與方法學貢獻
- 系統性診斷:建立穿戴式裝置資料的標準檢查流程
- 時區問題識別:首次系統性記錄此類問題的發現與解決方法
- 品質控制標準:在資料量與品質間找到最佳平衡點
- 可重現性:所有處理步驟均可被其他研究重現
⚠️ 異常值處理的學術嚴謹性
📋 異常值識別標準
| 變數類型 | 合理範圍 | 統計方法 | 生理依據 | 處理決策 |
|---|---|---|---|---|
| 睡眠時長 | 30分鐘 - 14小時 | IQR ± 1.5×IQR | 成人正常睡眠範圍 | 移除極端值 |
| 活動指標 | ≥ 0 | 下界調整為0 | 物理不可能為負 | 邊界修正 |
| 比例變數 | 0 - 1 | 邊界限制 | 比例定義 | 範圍限制 |
| 壓力水平 | 0 - 100 | 量表邊界 | 測量工具限制 | 量表邊界 |
✅ 處理原則與學術理由
- 保守原則:寧可保留邊緣值,避免過度排除真實的個體差異
- 生理合理性:結合統計方法與生理學知識進行判斷
- 透明度:詳細記錄所有異常值的處理決策與理由
- 敏感性分析:比較包含/排除異常值對結果的影響
📊 最終資料品質評估
最終用戶數
71
位(原74位)
高品質記錄
1,031
筆配對資料
配對成功率
86.9%
優秀水準
總保留率
25.9%
嚴格品質控制
🏆 品質控制成果與學術意義
高標準的資料品質:雖然最終保留率僅25.9%,但確保了每筆記錄的可信度。時區問題的發現與修正(98.2% → 95.5%)展現了系統性資料檢查的重要性,為穿戴式裝置資料分析建立了標準流程。
方法學貢獻:本研究建立的資料清理流程具有高度可重現性,可作為同類研究的方法學參考,特別是時區問題的識別與處理方法。