机器学习中常用的数据预处理方法

news/2025/2/9 10:49:06 标签: 机器学习, 人工智能

1. 数据清洗

  • 方法:处理异常值、重复数据、噪声数据。
    • 异常值处理:通过统计方法(如 Z-Score、IQR)或可视化检测,选择删除、替换(均值/中位数)或保留。
    • 重复数据:直接删除重复样本。
  • 优点:提升数据质量,减少模型偏差。
  • 缺点:可能误删有用信息或引入人为偏差。
  • 场景:金融风控(异常交易检测)、传感器数据清洗。

2. 特征缩放

  • 归一化(Min-Max Scaling)

    • 将数据缩放到 [0, 1] 区间。
    • 优点:加速梯度下降,适合对尺度敏感的模型(如神经网络、KNN)。
    • 缺点:对异常值敏感。
  • 标准化(Z-Score)

    • 使数据均值为 0,方差为 1。
    • 优点:对异常值稳健,适合大多数模型(如 SVM、线性回归)。
    • 缺点:不保证固定数值范围。
  • 场景:归一化用于图像像素值处理;标准化用于非均匀分布特征(如年龄、收入)。


3. 分类变量编码

  • 独热编码(One-Hot Encoding)

    • 将类别转换为二进制向量(如 “猫” → [1,0,0])。
    • 优点:消除数值大小误导,适合无序类别。
    • 缺点:维度爆炸(高基数特征需配合降维)。
  • 标签编码(Label Encoding)

    • 将类别映射为整数(如 “红/黄/蓝” → 0/1/2)。
    • 优点:节省内存,适合树模型(如随机森林)。
    • 缺点:可能引入虚假顺序关系。
  • 场景:独热编码用于性别、颜色;标签编码用于有序类别(如学历等级)。


4. 缺失值处理

  • 删除缺失样本/特征

    • 优点:简单高效。
    • 缺点:丢失信息(缺失比例高时不可行)。
  • 填充

    • 均值/中位数(数值特征)、众数(分类特征)、插值(时间序列)。
    • 优点:保留数据完整性。
    • 缺点:可能引入偏差(如均值填充忽略特征分布)。
  • 模型预测填充

    • 用回归或分类模型预测缺失值。
    • 优点:更精准。
    • 缺点:计算复杂,可能过拟合。
  • 场景:医疗数据(缺失较多时用模型填充);电商数据(删除缺失少的特征)。


5. 特征工程

  • 特征选择

    • 过滤法(卡方检验、相关系数)、包装法(递归特征消除)、嵌入法(L1 正则化)。
    • 优点:降低过拟合风险,提升效率。
    • 缺点:可能丢弃有用特征。
  • 特征构造

    • 人工构造新特征(如日期→星期几,文本→词频)。
    • 优点:增强模型表达能力。
    • 缺点:依赖领域知识,耗时。
  • 场景:广告 CTR 预测(构造用户行为组合特征);图像识别(提取边缘特征)。


6. 降维

  • 主成分分析(PCA)

    • 线性投影到低维空间,保留最大方差。
    • 优点:减少计算量,缓解维度灾难。
    • 缺点:丢失非线性结构。
  • t-SNE

    • 非线性降维,保留局部相似性。
    • 优点:适合高维数据可视化。
    • 缺点:计算复杂,难以解释。
  • 场景:图像数据压缩(PCA);高维聚类可视化(t-SNE)。


7. 数据增强(深度学习)

  • 方法:图像(旋转、翻转、裁剪)、文本(同义词替换)、音频(加噪)。
  • 优点:提升泛化性,缓解过拟合。
  • 缺点:可能生成不合理的样本(如翻转后的错误文本)。
  • 场景:图像分类(CNN 训练)、小样本学习。

8. 数据划分

  • 训练集/验证集/测试集
    • 常用比例 60%/20%/20% 或 70%/30%。
  • 交叉验证
    • K-Fold 划分(如 5 折),减少划分偏差。
  • 优点:评估模型泛化能力。
  • 缺点:数据量少时交叉验证计算成本高。
  • 场景:小数据集(交叉验证);时序数据(需按时间顺序划分)。

9. 时间序列处理

  • 滑动窗口:将序列转换为监督学习格式。
  • 去趋势/季节性:差分、STL 分解。
  • 优点:捕捉时序依赖关系。
  • 缺点:处理不当可能破坏原始模式。
  • 场景:股票预测、销量预测。

10. 文本处理

  • 分词/去停用词:中英文分词,移除无意义词(如“的”)。
  • 向量化:TF-IDF(统计权重)、Word2Vec/GloVe(语义向量)。
  • 场景:情感分析(TF-IDF + SVM)、机器翻译(词嵌入 + RNN)。

总结

方法典型技术适用场景
数据清洗IQR、Z-Score异常检测、传感器数据
特征缩放归一化、标准化神经网络、距离类模型(KNN、SVM)
降维PCA、t-SNE高维数据可视化、特征压缩
数据增强图像翻转、文本替换小样本图像/文本任务
缺失值处理模型填充、多重插值医疗数据、用户行为分析

根据数据特点和模型需求选择合适方法:结构化数据侧重特征工程与缩放,非结构化数据(如图像/文本)依赖增强与向量化。


http://www.niftyadmin.cn/n/5845978.html

相关文章

时钟结构设计

时钟结构设计 现在已经清楚地说明时钟决策的主要考虑因素,下面将介绍如何为设计提供需要的时钟。 推断 无需用户干预, Vivado 综合工具就可以自动为所有时钟结构设定全局缓存 (BUFG) ,直到架构允许的最大数量(除非用 综合工具…

Kafka系列之:定位topic只能保存最新数据的原因

Kafka系列之:定位topic只能保存最新数据的原因 一、背景二、定位排查方向三、深入排查一、背景 kafka topic保存的数据少,topic只能保存最新的数据二、定位排查方向 能想到的定位排查方向:topic能存储的数据量、topic数据保存的时间、topic数据大小./bin/kafka-configs.sh -…

Kong故障转移参数配置

一、Passive Health Check Healthchecks.Passive.Unhealthy.HttpStatuses 含义: 列出了被认为是“不健康”的HTTP状态码。目的: 当健康检查(Healthcheck)返回这些状态码时,系统会认为服务不健康,并可能触…

kafka生产端之拦截器、分区器、序列化器

文章目录 拦截器序列化器分区器 拦截器 拦截器(Interceptor)是早在Kafka0.10.0.0中就已经引入的一个功能,Kafka一共有两种拦截器:生产者拦截器和消费者拦截器。本节主要讲述生产者拦截器的相关内容,有关消费者拦截器的…

【Qt Creator】Qt Creator编辑器打开QT项目后,项目栏的文件全部呈现灰色的原因分析

目录 1、现象描述2、原因分析3、解决方法 1、现象描述 在学习QT过程中,常常会从网络(如GitHub)上下载QT项目进行学习或借鉴使用,但是使用Qt Creator编辑器打开项目后,往往会出现项目栏的文件全部呈现灰色的问题&#x…

怎样确定网站访问速度出现问题是后台还是服务器造成的?

网站的访问速度会影响到用户的体验感,当网络过于卡顿或访问速度较慢时,会给用户带来不好的体验感,但是网站访问速度不仅会是后台造成影响的,也可能是服务器的原因,那么我们该如何分辨呢? 当网站使用了数据库…

SpringCloud面试题----Nacos和Eureka的区别

功能特性 服务发现 Nacos:支持基于 DNS 和 RPC 的服务发现,提供了更为灵活的服务发现机制,能满足不同场景下的服务发现需求。Eureka:主要基于 HTTP 的 RESTful 接口进行服务发现,客户端通过向 Eureka Server 发送 HT…

redis专栏解读

本篇起导读、目录的作用,介绍redis专栏涉及的内容以及目录。 redis是我们日常开发中常用的NOSQL数据库,本专栏讲讲解redis的内部实现原理,不会侧重于API的使用,遇到API使用上会简单概括。本专栏大致会分为基础部分(数…