大佬教程收集整理的这篇文章主要介绍了如何对来自不同特征工程过程的特征进行标准化和归一化?,大佬教程大佬觉得挺不错的,现在分享给大家,也给大家做个参考。
我正在处理一个数据集,其中每个样本都包含数字和文本数据。因此,采用多种方法从数据集构建训练特征矩阵。对于数据集中的每个样本,我从 3 个部分构建了一个向量表示。
段落文本的 doc2vec 向量表示:我使用 gensim
implemetation of paragraph vector 将文本编码为 [-5,5]
之间的 100 维浮点数
文本标签的单热编码向量:数据集中的每个样本都有零个或多个文本标签,我汇总了数据集中使用的所有唯一标签,并将其编码为仅包含 0 和1. 例如,如果完整的标签集是 [Python,Java,JavaScript,C++]
,并且样本包含标签 Python
和 Java
,则结果向量将为 [1,1,0]
。
数值数据和分类数据:
生成的特征矩阵如下所示
[
[-1.02,1.33,2.35,-0.48,... -4.11,...,235,11.5,333],[-0.22,3.03,1.95,233,22,[-2.07,-1.33,-2.35,102,13,[-4.32,4.33,1.75,98,8,]
我的问题是,我应该对数据集应用任何标准化或规范化吗?如果是这样,我应该在连接特征的不同部分之前还是之后进行?
我正在使用 scikit-learn,我使用的主要算法是梯度提升。
是的,您需要单独处理特征:您应该只对原始数值特征应用标准化或归一化,而不应该对 doc2vec、OHE 或编码的分类特征进行标准化或归一化。
以上是大佬教程为你收集整理的如何对来自不同特征工程过程的特征进行标准化和归一化?全部内容,希望文章能够帮你解决如何对来自不同特征工程过程的特征进行标准化和归一化?所遇到的程序开发问题。
如果觉得大佬教程网站内容还不错,欢迎将大佬教程推荐给程序员好友。
本图文内容来源于网友网络收集整理提供,作为学习参考使用,版权属于原作者。
如您有任何意见或建议可联系处理。小编QQ:384754419,请注明来意。