📋 資料清理與品質控制

系統性資料品質評估與處理流程

🎯 資料清理概述

研究目標與重要性

探討Garmin運動手環使用者之活動量與睡眠品質間的關聯性。資料清理是確保分析結果可信度的關鍵步驟,直接影響後續多變量統計分析的有效性。

原始資料
3,976
筆睡眠記錄
發現問題
4大類
重複、時區、異常值、日期
最終可用
1,031
高品質記錄
資料保留率
25.9%
嚴格品質控制

🌏 關鍵發現:時區問題的系統性識別與修正

重大發現與學術價值

透過分布分析發現原始資料中98.2%的睡眠記錄出現在下午時段,經檢查後確認為UTC與本地時間(GMT+8)的時區混亂問題。此發現對後續分析的有效性具有決定性影響,展現了系統性資料檢查的重要性。

⚠️ 調整前(UTC時間)

看起來極不合理的睡眠分布
98.2%的人在下午睡覺?

1.8%
正常夜間睡眠
98.2%
異常時段睡眠

✅ 調整後(GMT+8時間)

符合正常生理規律
95.5%恢復為夜間睡眠

95.5%
正常夜間睡眠
4.5%
短睡眠或其他

🔬 方法學意義

  • 批判性思維:質疑看似「正確」的資料,發現隱藏的系統性問題
  • 視覺化診斷:透過分布圖快速識別異常模式
  • 可重現性:建立標準化的時區檢查流程
  • 影響評估:量化修正對資料品質的改善程度

🔍 系統性資料品質問題診斷

問題一:大量重複記錄(69.3%)

發現:1,076 個使用者-日期組合有多筆睡眠記錄,影響2,754筆記錄

  • 可能原因:裝置同步問題、使用者多次記錄、資料庫重複匯入
  • 影響範圍:69.3%的記錄涉及重複問題
  • 處理策略:保留每天最長的主要睡眠記錄(≥4小時優先)

問題二:時區記錄混亂(98.2% 異常)

發現:初始分析顯示僅1.8%的睡眠發生在正常夜間時段

  • 根本原因:資料以UTC時間記錄,但使用者實際在GMT+8時區活動
  • 嚴重性:此問題使98.2%的睡眠時間看起來極不合理
  • 解決方案:系統性時區修正,95.5%記錄恢復正常

問題三:極端睡眠時長(8筆異常值)

發現:睡眠時長從0小時到20小時的生理不合理值

  • 短睡眠:1筆短於30分鐘(可能誤觸啟動)
  • 長睡眠:7筆長於14小時(可能裝置故障)
  • 極端案例:3筆≥20小時睡眠,且集中於同一位使用者(已去識別化處理)

問題四:日期歸屬邏輯不一致(38.5%)

發現:即使時區調整後,仍有38.5%的記錄日期配對存在問題

  • 複雜性:睡眠跨日的歸屬邏輯需要統一標準
  • 影響:部分睡眠無法正確配對活動資料
  • 最終結果:透過統一邏輯,達成86.9%的配對成功率

🔧 系統性資料清理方法論

📊 清理流程與統計結果

處理階段 問題識別 處理方法 數量變化 品質改善
階段1:時區修正 98.2%異常睡眠時間 UTC → GMT+8 轉換 3,976 → 3,976 (0筆移除) 1.8% → 95.5% 正常
階段2:異常值處理 8筆極端睡眠時長 IQR方法+生理邊界 3,976 → 3,968 (8筆移除) 移除不合理值
階段3:去重處理 69.3%重複記錄 保留最長主要睡眠 3,968 → 1,214 (2,754筆移除) 確保唯一性
階段4:配對整合 日期歸屬邏輯 統一歸屬策略 1,214 → 1,031 (86.9%成功率) 高品質配對資料

🎓 學術價值與方法學貢獻

  1. 系統性診斷:建立穿戴式裝置資料的標準檢查流程
  2. 時區問題識別:首次系統性記錄此類問題的發現與解決方法
  3. 品質控制標準:在資料量與品質間找到最佳平衡點
  4. 可重現性:所有處理步驟均可被其他研究重現

⚠️ 異常值處理的學術嚴謹性

📋 異常值識別標準

變數類型 合理範圍 統計方法 生理依據 處理決策
睡眠時長 30分鐘 - 14小時 IQR ± 1.5×IQR 成人正常睡眠範圍 移除極端值
活動指標 ≥ 0 下界調整為0 物理不可能為負 邊界修正
比例變數 0 - 1 邊界限制 比例定義 範圍限制
壓力水平 0 - 100 量表邊界 測量工具限制 量表邊界

✅ 處理原則與學術理由

  • 保守原則:寧可保留邊緣值,避免過度排除真實的個體差異
  • 生理合理性:結合統計方法與生理學知識進行判斷
  • 透明度:詳細記錄所有異常值的處理決策與理由
  • 敏感性分析:比較包含/排除異常值對結果的影響

📊 最終資料品質評估

最終用戶數
71
位(原74位)
高品質記錄
1,031
筆配對資料
配對成功率
86.9%
優秀水準
總保留率
25.9%
嚴格品質控制

🏆 品質控制成果與學術意義

高標準的資料品質:雖然最終保留率僅25.9%,但確保了每筆記錄的可信度。時區問題的發現與修正(98.2% → 95.5%)展現了系統性資料檢查的重要性,為穿戴式裝置資料分析建立了標準流程。

方法學貢獻:本研究建立的資料清理流程具有高度可重現性,可作為同類研究的方法學參考,特別是時區問題的識別與處理方法。

資料清理完成,準備進行統計分析

📊 探索性資料分析 描述統計・相關性分析・分布特徵