38. 機器學習需要大量的資料，用以建立準確的模型。但是蒐集的資料可能因為資料缺漏、格式不一致等種種原因而無法直接使用，必須進行資料整理(data cleaning)。以下何者不是常見的資料整理的方式

問題詳情

38. 機器學習需要大量的資料，用以建立準確的模型。但是蒐集的資料可能因為資料缺漏、格式不一致等種種原因而無法直接使用，必須進行資料整理(data cleaning)。以下何者不是常見的資料整理的方式？
(A)移除異常資料
(B)將名目值量化
(C)插入平均值或中位數
(D)以上皆是常用的方式

參考答案

答案：D
難度：計算中-1
書單：沒有書單，新增

用户評論

【不叫賭俠的陳小刀】評論

資料清理主要包括以下幾個方面的方法：缺失值處理：對於缺失的數據，可以選擇填充、插值、刪除或保持不變，具體方法取決於資料的特性和缺失原因。填充：將缺失值替換為某個常數值，如 0、平均值、中位數等。插值：根據已有的資料對缺失值進行估算，如使用時間序列資料中的前後值進行線性插值。刪除：若缺失值占比較低，且不影響分析結果，可以直接刪除缺失值所在的樣本。重複值處理：對於重複的數據，可以選擇保留一個並刪除其他重複值，或者根據某些規則合併重複的資料。異常值檢測：通過統計方法或機器學習算法識別異常值，並對其進行修改或刪除。常用方法有：統計方法：如基於標準差或四分位數範圍（IQR）檢測異常值。機器學習算法：如聚類算法、異常檢測算法等。資料轉換：將資料轉換為統一的格式和度量單位，以便進行後續分析。資料轉換可能包括：資料標準化：將資料縮放到相同的數值範圍，如 0 到 1 之間。資料歸一化：將資料轉換為具有單位範數的形式，以消除量級上的差異。類別資料編碼：將類別資料轉換為數值形式，如 one-hot 編碼。特徵選擇：從原始特徵中選擇對分析或建模最具有意義的特徵，可以降低計算複雜度，提高模型效果。常用的特徵選擇方法包括：過濾法（Filter）：根據特徵和目標變數之間的關聯性進行特徵選擇。包裝法（Wrapper）：將特徵選擇作為搜索問題，通過訓練模型並評估性能來選擇特徵。嵌入法（Embedded）：利用機器學習算法的特性，自動進行特徵選擇，如正則化方法。

問題詳情

參考答案

用户評論

資訊推薦