机器学习中常用的数据预处理方法

机器学习中常用的数据预处理方法

news/2025/2/9 10:49:06 标签: 机器学习, 人工智能

1. 数据清洗

方法：处理异常值、重复数据、噪声数据。
- 异常值处理：通过统计方法（如 Z-Score、IQR）或可视化检测，选择删除、替换（均值/中位数）或保留。
- 重复数据：直接删除重复样本。
优点：提升数据质量，减少模型偏差。
缺点：可能误删有用信息或引入人为偏差。
场景：金融风控（异常交易检测）、传感器数据清洗。

2. 特征缩放

归一化（Min-Max Scaling）
- 将数据缩放到 [0, 1] 区间。
- 优点：加速梯度下降，适合对尺度敏感的模型（如神经网络、KNN）。
- 缺点：对异常值敏感。
标准化（Z-Score）
- 使数据均值为 0，方差为 1。
- 优点：对异常值稳健，适合大多数模型（如 SVM、线性回归）。
- 缺点：不保证固定数值范围。
场景：归一化用于图像像素值处理；标准化用于非均匀分布特征（如年龄、收入）。

3. 分类变量编码

独热编码（One-Hot Encoding）
- 将类别转换为二进制向量（如 “猫” → [1,0,0]）。
- 优点：消除数值大小误导，适合无序类别。
- 缺点：维度爆炸（高基数特征需配合降维）。
标签编码（Label Encoding）
- 将类别映射为整数（如 “红/黄/蓝” → 0/1/2）。
- 优点：节省内存，适合树模型（如随机森林）。
- 缺点：可能引入虚假顺序关系。
场景：独热编码用于性别、颜色；标签编码用于有序类别（如学历等级）。

4. 缺失值处理

删除缺失样本/特征
- 优点：简单高效。
- 缺点：丢失信息（缺失比例高时不可行）。
填充
- 均值/中位数（数值特征）、众数（分类特征）、插值（时间序列）。
- 优点：保留数据完整性。
- 缺点：可能引入偏差（如均值填充忽略特征分布）。
模型预测填充
- 用回归或分类模型预测缺失值。
- 优点：更精准。
- 缺点：计算复杂，可能过拟合。
场景：医疗数据（缺失较多时用模型填充）；电商数据（删除缺失少的特征）。

5. 特征工程

特征选择
- 过滤法（卡方检验、相关系数）、包装法（递归特征消除）、嵌入法（L1 正则化）。
- 优点：降低过拟合风险，提升效率。
- 缺点：可能丢弃有用特征。
特征构造
- 人工构造新特征（如日期→星期几，文本→词频）。
- 优点：增强模型表达能力。
- 缺点：依赖领域知识，耗时。
场景：广告 CTR 预测（构造用户行为组合特征）；图像识别（提取边缘特征）。

6. 降维

主成分分析（PCA）
- 线性投影到低维空间，保留最大方差。
- 优点：减少计算量，缓解维度灾难。
- 缺点：丢失非线性结构。
t-SNE
- 非线性降维，保留局部相似性。
- 优点：适合高维数据可视化。
- 缺点：计算复杂，难以解释。
场景：图像数据压缩（PCA）；高维聚类可视化（t-SNE）。

7. 数据增强（深度学习）

方法：图像（旋转、翻转、裁剪）、文本（同义词替换）、音频（加噪）。
优点：提升泛化性，缓解过拟合。
缺点：可能生成不合理的样本（如翻转后的错误文本）。
场景：图像分类（CNN 训练）、小样本学习。

8. 数据划分

训练集/验证集/测试集
- 常用比例 60%/20%/20% 或 70%/30%。
交叉验证
- K-Fold 划分（如 5 折），减少划分偏差。
优点：评估模型泛化能力。
缺点：数据量少时交叉验证计算成本高。
场景：小数据集（交叉验证）；时序数据（需按时间顺序划分）。

9. 时间序列处理

滑动窗口：将序列转换为监督学习格式。
去趋势/季节性：差分、STL 分解。
优点：捕捉时序依赖关系。
缺点：处理不当可能破坏原始模式。
场景：股票预测、销量预测。

10. 文本处理

分词/去停用词：中英文分词，移除无意义词（如“的”）。
向量化：TF-IDF（统计权重）、Word2Vec/GloVe（语义向量）。
场景：情感分析（TF-IDF + SVM）、机器翻译（词嵌入 + RNN）。

总结

方法	典型技术	适用场景
数据清洗	IQR、Z-Score	异常检测、传感器数据
特征缩放	归一化、标准化	神经网络、距离类模型（KNN、SVM）
降维	PCA、t-SNE	高维数据可视化、特征压缩
数据增强	图像翻转、文本替换	小样本图像/文本任务
缺失值处理	模型填充、多重插值	医疗数据、用户行为分析

根据数据特点和模型需求选择合适方法：结构化数据侧重特征工程与缩放，非结构化数据（如图像/文本）依赖增强与向量化。

http://www.niftyadmin.cn/n/5845978.html

相关文章

时钟结构设计

时钟结构设计

时钟结构设计现在已经清楚地说明时钟决策的主要考虑因素，下面将介绍如何为设计提供需要的时钟。推断无需用户干预， Vivado 综合工具就可以自动为所有时钟结构设定全局缓存 (BUFG) ，直到架构允许的最大数量（除非用综合工具…

阅读更多...

Kafka系列之：定位topic只能保存最新数据的原因

Kafka系列之：定位topic只能保存最新数据的原因

Kafka系列之：定位topic只能保存最新数据的原因一、背景二、定位排查方向三、深入排查一、背景 kafka topic保存的数据少，topic只能保存最新的数据二、定位排查方向能想到的定位排查方向：topic能存储的数据量、topic数据保存的时间、topic数据大小./bin/kafka-configs.sh -…

阅读更多...

Kong故障转移参数配置

Kong故障转移参数配置

一、Passive Health Check Healthchecks.Passive.Unhealthy.HttpStatuses 含义： 列出了被认为是“不健康”的HTTP状态码。目的： 当健康检查（Healthcheck）返回这些状态码时，系统会认为服务不健康，并可能触…

阅读更多...

kafka生产端之拦截器、分区器、序列化器

kafka生产端之拦截器、分区器、序列化器

文章目录拦截器序列化器分区器拦截器拦截器（Interceptor）是早在Kafka0.10.0.0中就已经引入的一个功能，Kafka一共有两种拦截器：生产者拦截器和消费者拦截器。本节主要讲述生产者拦截器的相关内容，有关消费者拦截器的…

阅读更多...

【Qt Creator】Qt Creator编辑器打开QT项目后，项目栏的文件全部呈现灰色的原因分析

【Qt Creator】Qt Creator编辑器打开QT项目后，项目栏的文件全部呈现灰色的原因分析

目录 1、现象描述2、原因分析3、解决方法 1、现象描述在学习QT过程中，常常会从网络（如GitHub）上下载QT项目进行学习或借鉴使用，但是使用Qt Creator编辑器打开项目后，往往会出现项目栏的文件全部呈现灰色的问题&#x…

阅读更多...

怎样确定网站访问速度出现问题是后台还是服务器造成的？

怎样确定网站访问速度出现问题是后台还是服务器造成的？

网站的访问速度会影响到用户的体验感，当网络过于卡顿或访问速度较慢时，会给用户带来不好的体验感，但是网站访问速度不仅会是后台造成影响的，也可能是服务器的原因，那么我们该如何分辨呢？ 当网站使用了数据库…

阅读更多...

SpringCloud面试题----Nacos和Eureka的区别

SpringCloud面试题----Nacos和Eureka的区别

功能特性服务发现 Nacos：支持基于 DNS 和 RPC 的服务发现，提供了更为灵活的服务发现机制，能满足不同场景下的服务发现需求。Eureka：主要基于 HTTP 的 RESTful 接口进行服务发现，客户端通过向 Eureka Server 发送 HT…

阅读更多...

redis专栏解读

redis专栏解读

本篇起导读、目录的作用，介绍redis专栏涉及的内容以及目录。 redis是我们日常开发中常用的NOSQL数据库，本专栏讲讲解redis的内部实现原理，不会侧重于API的使用，遇到API使用上会简单概括。本专栏大致会分为基础部分（数…

阅读更多...

最新文章