1. 数据清洗
- 方法:处理异常值、重复数据、噪声数据。
- 异常值处理:通过统计方法(如 Z-Score、IQR)或可视化检测,选择删除、替换(均值/中位数)或保留。
- 重复数据:直接删除重复样本。
- 优点:提升数据质量,减少模型偏差。
- 缺点:可能误删有用信息或引入人为偏差。
- 场景:金融风控(异常交易检测)、传感器数据清洗。
2. 特征缩放
-
归一化(Min-Max Scaling)
- 将数据缩放到 [0, 1] 区间。
- 优点:加速梯度下降,适合对尺度敏感的模型(如神经网络、KNN)。
- 缺点:对异常值敏感。
-
标准化(Z-Score)
- 使数据均值为 0,方差为 1。
- 优点:对异常值稳健,适合大多数模型(如 SVM、线性回归)。
- 缺点:不保证固定数值范围。
-
场景:归一化用于图像像素值处理;标准化用于非均匀分布特征(如年龄、收入)。
3. 分类变量编码
-
独热编码(One-Hot Encoding)
- 将类别转换为二进制向量(如 “猫” → [1,0,0])。
- 优点:消除数值大小误导,适合无序类别。
- 缺点:维度爆炸(高基数特征需配合降维)。
-
标签编码(Label Encoding)
- 将类别映射为整数(如 “红/黄/蓝” → 0/1/2)。
- 优点:节省内存,适合树模型(如随机森林)。
- 缺点:可能引入虚假顺序关系。
-
场景:独热编码用于性别、颜色;标签编码用于有序类别(如学历等级)。
4. 缺失值处理
-
删除缺失样本/特征
- 优点:简单高效。
- 缺点:丢失信息(缺失比例高时不可行)。
-
填充
- 均值/中位数(数值特征)、众数(分类特征)、插值(时间序列)。
- 优点:保留数据完整性。
- 缺点:可能引入偏差(如均值填充忽略特征分布)。
-
模型预测填充
- 用回归或分类模型预测缺失值。
- 优点:更精准。
- 缺点:计算复杂,可能过拟合。
-
场景:医疗数据(缺失较多时用模型填充);电商数据(删除缺失少的特征)。
5. 特征工程
-
特征选择
- 过滤法(卡方检验、相关系数)、包装法(递归特征消除)、嵌入法(L1 正则化)。
- 优点:降低过拟合风险,提升效率。
- 缺点:可能丢弃有用特征。
-
特征构造
- 人工构造新特征(如日期→星期几,文本→词频)。
- 优点:增强模型表达能力。
- 缺点:依赖领域知识,耗时。
-
场景:广告 CTR 预测(构造用户行为组合特征);图像识别(提取边缘特征)。
6. 降维
-
主成分分析(PCA)
- 线性投影到低维空间,保留最大方差。
- 优点:减少计算量,缓解维度灾难。
- 缺点:丢失非线性结构。
-
t-SNE
- 非线性降维,保留局部相似性。
- 优点:适合高维数据可视化。
- 缺点:计算复杂,难以解释。
-
场景:图像数据压缩(PCA);高维聚类可视化(t-SNE)。
7. 数据增强(深度学习)
- 方法:图像(旋转、翻转、裁剪)、文本(同义词替换)、音频(加噪)。
- 优点:提升泛化性,缓解过拟合。
- 缺点:可能生成不合理的样本(如翻转后的错误文本)。
- 场景:图像分类(CNN 训练)、小样本学习。
8. 数据划分
- 训练集/验证集/测试集
- 常用比例 60%/20%/20% 或 70%/30%。
- 交叉验证
- K-Fold 划分(如 5 折),减少划分偏差。
- 优点:评估模型泛化能力。
- 缺点:数据量少时交叉验证计算成本高。
- 场景:小数据集(交叉验证);时序数据(需按时间顺序划分)。
9. 时间序列处理
- 滑动窗口:将序列转换为监督学习格式。
- 去趋势/季节性:差分、STL 分解。
- 优点:捕捉时序依赖关系。
- 缺点:处理不当可能破坏原始模式。
- 场景:股票预测、销量预测。
10. 文本处理
- 分词/去停用词:中英文分词,移除无意义词(如“的”)。
- 向量化:TF-IDF(统计权重)、Word2Vec/GloVe(语义向量)。
- 场景:情感分析(TF-IDF + SVM)、机器翻译(词嵌入 + RNN)。
总结
方法 | 典型技术 | 适用场景 |
---|---|---|
数据清洗 | IQR、Z-Score | 异常检测、传感器数据 |
特征缩放 | 归一化、标准化 | 神经网络、距离类模型(KNN、SVM) |
降维 | PCA、t-SNE | 高维数据可视化、特征压缩 |
数据增强 | 图像翻转、文本替换 | 小样本图像/文本任务 |
缺失值处理 | 模型填充、多重插值 | 医疗数据、用户行为分析 |
根据数据特点和模型需求选择合适方法:结构化数据侧重特征工程与缩放,非结构化数据(如图像/文本)依赖增强与向量化。