python – 分类:使用sklearn进行PCA和逻辑回归
发布时间:2020-09-08 12:22:48 所属栏目:Python 来源:互联网
导读:第0步:问题描述我有一个分类问题,即我想基于数字特征的集合,使用逻辑回归和运行主成分分析(PCA)来预测二进制目标.我有2个数据集:df_train和df_valid(分别是训练集和验证集)作为pandas数据框,包含特征和目标.作为第一步,我使用了get_dummies pandas函数将所
|
第0步:问题描述 我有一个分类问题,即我想基于数字特征的集合,使用逻辑回归和运行主成分分析(PCA)来预测二进制目标. 我有2个数据集:df_train和df_valid(分别是训练集和验证集)作为pandas数据框,包含特征和目标.作为第一步,我使用了get_dummies pandas函数将所有分类变量转换为boolean.例如,我会:
我现在想应用PCA来减少问题的维数,然后使用sklearn中的LogisticRegression训练并获得我的验证集的预测,但我不确定我遵循的程序是否正确.这是我做的: 第1步:PCA 我的想法是,我需要以与PCA相同的方式转换我的训练和验证设置.换句话说,我不能单独执行PCA.否则,它们将被投射到不同的特征向量上.
第二步:Logistic回归 这没有必要,但我更喜欢将事物保存为数据帧:
现在我进行逻辑回归
我认为第2步是正确的,但我对第1步有更多疑问:这是我应该链接PCA,然后是分类器的方式吗? 最佳答案 为此目的,sklearn中有一个pipeline. (编辑:东莞站长网) 【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容! |
相关内容
- 在测试python max recursion depth时,为什么我多次遇到Runt
- python – 如何训练大型数据集进行分类
- python – Django中的ValidationError
- django – formfield_for_foreignkey和内联管理员
- python – 如何将Pandas列多索引名称作为列表
- python – Mac OS上“import cv”期间的“分段错误”
- 是否有一种标准方法来声明不支持旧的python版本?
- python – 为什么pow(x,y)的时间复杂度为O(1),而x ** y为O(
- python – 我应该使用fork还是thread?
- python – 用于打开具有两个函数的文件的“with”语法
