特征工程 降维_数据降维与特征选择异同

特征工程 降维_数据降维与特征选择异同在业界广泛流传着一句话:数据和特征决定了机器学习的上限,而模型和算法只是逼近这个上限而已。
由此可见,数据和特征是多么的重要,而在数据大多数场景下,数据已经就绪,不同人对于同样的数据处理得到的特征却千

数据挖掘篇——特征工程之特征降维

 在业界广泛流传着一句话:数据和特征决定了机器学习的上限,而模型和算法只是逼近这个上限而已。

 由此可见,数据和特征是多么的重要,而在数据大多数场景下,数据已经就绪,不同人对于同样的数据处理得到的特征却千差万别,最终得到的建模效果也是高低立现。从数据到特征这就要从特征工程说起了…


0. 特征工程

    首先介绍下,特征工程是什么:利用数据领域的相关知识来创建能够使机器学习算法达到最佳性能的特征的过程[1.wiki]。特征工程是一个较大领域,它通常包括特征构建、特征提取和特征选择这三个子模块,重要性排序:特征构建>特征提取>特征选择。

    先来介绍几个术语:
  • 特征构建:从原始数据中构建出特征,有时也称作特征预处理,包括缺失值处理、异常值处理、无量纲化(标准化/归一化)、哑编码等。
  • 特征提取:将原特征转换为一组具有明显物理意义或统计意义或核的新特征。
  • 特征选择:从特征集合中挑选一组最具统计意义的特征子集。
    其中本文主要总结下可统一用于特征降维的特征提取和特征选择技术方法,特征构建涉及技术点较少,下回再分解。

1. 特征降维

WHAT:将高维空间的特征通过删减或变换转为低维空间特征
WHY:降低时间/空间复杂度、降低提取特征开销、降噪、提升鲁棒性、增强可解释性、便于可视化;
HOW:主要有两种方式,即特征选择和特征提取。

1.1 特征选择(子集筛选):

特征选择方法主要分为三种:

  • Filter:过滤式;按权重排序,不涉及到学习器,排序规则一般有方差法、相关系数法、互信息法、卡方检验法、缺失值比例法(注意受范围影响的方法需先归一化)[2.zhihu]
    • 方差法:计算各个特征的方差,然后根据阈值,选择方差大于阈值的特征。可使用sklearn.feature_selection库的VarianceThreshold类来实现。
    • 缺失值比例法:计算各个特征的缺失值比例,将缺失值比例较大的特征过滤掉。
    • 相关系数法:计算特征与输出值的相关系数以及相关系数的 P值(常见的有:皮尔森相关系数用于数值特征的线性检验,秩相关系数用于类别特征的单调性检验)。
    • 互信息法:计算定性特征与输出值的相关性(运用了信息熵理论),决策树学习中的信息增益等价于训练数据集中类与特征的互信息。
      •   特征工程 降维_数据降维与特征选择异同 
    • 卡方检验法:对于每个特征与输出值,先假设独立,再观察实际值与理论值的偏差来确定假设的正确性,即是否相关。
  • Embedded:嵌入式;确定模型过程中自动完成重要特征挑选,基于惩罚项如岭回归(L2正则)、LASSO(L1正则),基于树模型如GBDT、决策树[3.cnblog]
  • Wrapper:封装式;用学习器的性能评判不同特征子集的效果,特征子集生成方式:完全搜索(前向&后向)、启发式搜索、随机搜索[3.cnblog]

1.2 特征提取(投影or转换):

  • 线性方法[4.csdn]
    • PCA:主成分分析;理论:通过正交变换将原始的 n 维数据集变换到一个新的被称做主成分的数据集中,变换后的结果中第一个主成分具有最大的方差值;
      • 特点:无监督,尽量少维度保留尽量多原始信息(均方误差最小),期望投影维度上方差最大,不考虑类别,去相关性,零均值化,丧失可解释性
    • ICA:独立成分分析;将原特征转化为相互独立的分量的线性组合;PCA一般作为ICA的预处理步骤[5.zhihu]
    • LDA:线性判别分析,有监督,尽可能容易被区分(高内聚、低耦合)[6.cnblog]
    • SVD:奇异值分解,可用于PCA、推荐、潜在语义索引LSI,可并行,可解释性不强
  • 非线性方法:
    • LLE:局部线性嵌入,非线性降维(基于图),保持原有流行结构
    • LE:拉普拉斯特征映射,非线性(基于图),相互有联系的点尽可能靠近
    • t-SNE:t分布随机临近嵌入,将欧几里得距离转为条件概率表达点与点之间的相似度[7.datakit]
    • AE:自动编码器
    • 聚类

 

特征降维方法对比先介绍到这里,更多内容后续继续分解~

转载请注明出处:数据挖掘篇——特征工程之特征降维https://www.cnblogs.com/webary/p/12498886.html

 

参考链接:

1.wiki:https://en.wikipedia.org/wiki/Feature_engineering

2.zhihu:https://www.zhihu.com/question/28641663

3.cnblog:https://www.cnblogs.com/pinard/p/9032759.html

4.csdn:https://blog.csdn.net/yujianmin1990/article/details/48223001

5.zhihu:https://www.zhihu.com/search?type=content&q=PCA%20ICA

6.cnblog:https://www.cnblogs.com/LeftNotEasy/archive/2011/01/08/lda-and-pca-machine-learning.html

7.datakit:http://www.datakit.cn/blog/2017/02/05/t_sne_full.html

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 举报,一经查实,本站将立刻删除。
转载请注明出处: https://daima100.com/9532.html

(0)
上一篇 2023-02-06
下一篇 2023-02-06

相关推荐

  • Ubuntu下安装SQLServer[通俗易懂]

    Ubuntu下安装SQLServer[通俗易懂]安装过程中遇到的问题 1 sqlcmd -S localhost -U SA 时报错 Sqlcmd: Error: Microsoft ODBC Driver 17 for SQL Server :…

    2022-12-20
    99
  • Msql基础版_mysql好学吗

    Msql基础版_mysql好学吗 mysql简介 1、什么是数据库 ? 数据库(Database)是按照数据结构来组织、存储和管理数据的仓库,它产生于距今六十多年前,随着信息技术和市场的发展,特别是二十世纪九十年代以后,数据…

    2023-03-24
    100
  • ORA-12514 TNS 监听程序当前无法识别连接描述符中请求服务[通俗易懂]

    ORA-12514 TNS 监听程序当前无法识别连接描述符中请求服务[通俗易懂]具体操作是删除了原有数据库,然后重新创建了数据库,之后用sqlplus可以正常链接, 但是plsql链接不上,看了网上配置环境变量,配置plsql连接信息都不行。 监听服务也都重启过也不行 tnsn…

    2022-12-17
    97
  • ebsco数据库怎么用_数据库回表

    ebsco数据库怎么用_数据库回表​摘要:账本数据库融合了区块链思想,将用户操作记录至两种历史表中:用户历史表和全局区块表。 本文分享自华为云社区《openGauss账本数据库,你不知道的那些事儿》,作者:Gauss松鼠会。 账本数据

    2023-06-15
    91
  • 技术分享 | 企业版监控工具 MEM 初探[亲测有效]

    技术分享 | 企业版监控工具 MEM 初探[亲测有效]作者:姚远 专注于 Oracle、MySQL 数据库多年,Oracle 10G 和 12C OCM,MySQL 5.6 ,5.7,8.0 OCP。现在鼎甲科技任顾问,为同事和客户提高数据库培训和技术…

    2023-03-26
    100
  • MySQL安装——Linux「建议收藏」

    MySQL安装——Linux「建议收藏」MySQL安装——Linux MySQL下载链接:http://downloads.mysql.com/archives/community/ mysql安装(5.5) (1)查询是否安装过 #查看…

    2023-01-28
    98
  • 使用Python写入Json文件

    使用Python写入Json文件在现如今数据极为重要的时代,如何更好地将数据进行存储与展示对于数据分析与开发人员至关重要。而Json文件,作为一种轻量级的数据交换格式,被广泛应用于各种场景中,如Web API、数据库等。如何使用Python将数据保存到Json文件中?本文将会为您详细讲解。

    2024-04-19
    14
  • 开源自动化运维平台_运维之路

    开源自动化运维平台_运维之路原文链接:三分钟走进袋鼠云一站式全自动化全生命周期运维管家ChengYing(承影) 课件获取:关注公众号 ** “数栈研习社”,后台私信 “ChengYing”** 获得直播课件 视频回放:点击这里

    2023-05-25
    93

发表回复

您的电子邮箱地址不会被公开。 必填项已用*标注