問題詳情

38. 機器學習需要大量的資料,用以建立準確的模型。但是蒐集的資料可能因為資料缺漏、格式不一致等種種原因而無法直接使用,必須進行資料整理(data cleaning)。以下何者不是常見的資料整理的方式?
(A)移除異常資料
(B)將名目值量化
(C)插入平均值或中位數
(D)以上皆是常用的方式

參考答案

答案:D
難度:計算中-1
書單:沒有書單,新增

用户評論

【用戶】不叫賭俠的陳小刀

【年級】高三下

【評論內容】資料清理主要包括以下幾個方面的方法:缺失值處理:對於缺失的數據,可以選擇填充、插值、刪除或保持不變,具體方法取決於資料的特性和缺失原因。填充:將缺失值替換為某個常數值,如 0、平均值、中位數等。插值:根據已有的資料對缺失值進行估算,如使用時間序列資料中的前後值進行線性插值。刪除:若缺失值占比較低,且不影響分析結果,可以直接刪除缺失值所在的樣本。重複值處理:對於重複的數據,可以選擇保留一個並刪除其他重複值,或者根據某些規則合併重複的資料。異常值檢測:通過統計方法或機器學習算法識別異常值,並對其進行修改或刪除。常用方法有:統計方法:如基於標準差或四分位數範圍(IQR)檢測異常值。機器學習算法:如聚類算法、異常檢測算法等。資料轉換:將資料轉換為統一的格式和度量單位,以便進行後續分析。資料轉換可能包括:資料標準化:將資料縮放到相同的數值範圍,如 0 到 1 之間。資料歸一化:將資料轉換為具有單位範數的形式,以消除量級上的差異。類別資料編碼:將類別資料轉換為數值形式,如 one-hot 編碼。特徵選擇:從原始特徵中選擇對分析或建模最具有意義的特徵,可以降低計算複雜度,提高模型效果。常用的特徵選擇方法包括:過濾法(Filter):根據特徵和目標變數之間的關聯性進行特徵選擇。包裝法(Wrapper):將特徵選擇作為搜索問題,通過訓練模型並評估性能來選擇特徵。嵌入法(Embedded):利用機器學習算法的特性,自動進行特徵選擇,如正則化方法。

【用戶】不叫賭俠的陳小刀

【年級】高三下

【評論內容】資料清理主要包括以下幾個方面的方法:缺失值處理:對於缺失的數據,可以選擇填充、插值、刪除或保持不變,具體方法取決於資料的特性和缺失原因。填充:將缺失值替換為某個常數值,如 0、平均值、中位數等。插值:根據已有的資料對缺失值進行估算,如使用時間序列資料中的前後值進行線性插值。刪除:若缺失值占比較低,且不影響分析結果,可以直接刪除缺失值所在的樣本。重複值處理:對於重複的數據,可以選擇保留一個並刪除其他重複值,或者根據某些規則合併重複的資料。異常值檢測:通過統計方法或機器學習算法識別異常值,並對其進行修改或刪除。常用方法有:統計方法:如基於標準差或四分位數範圍(IQR)檢測異常值。機器學習算法:如聚類算法、異常檢測算法等。資料轉換:將資料轉換為統一的格式和度量單位,以便進行後續分析。資料轉換可能包括:資料標準化:將資料縮放到相同的數值範圍,如 0 到 1 之間。資料歸一化:將資料轉換為具有單位範數的形式,以消除量級上的差異。類別資料編碼:將類別資料轉換為數值形式,如 one-hot 編碼。特徵選擇:從原始特徵中選擇對分析或建模最具有意義的特徵,可以降低計算複雜度,提高模型效果。常用的特徵選擇方法包括:過濾法(Filter):根據特徵和目標變數之間的關聯性進行特徵選擇。包裝法(Wrapper):將特徵選擇作為搜索問題,通過訓練模型並評估性能來選擇特徵。嵌入法(Embedded):利用機器學習算法的特性,自動進行特徵選擇,如正則化方法。