风控建模常用pandas语句

更新时间:2024-02-22 20:28:01 阅读量: 经典范文大全 文档下载

说明:文章内容仅供预览,部分内容可能不全。下载后的文档,内容与下面显示的完全一致。下载之前请确认下面内容是否您想要的,是否完整无缺。
风控建模常用pandas语句

pandas对象是Python常用的数据分析模块,它主要包括series对象,dataframe对象和index对象。每种对象都有自己所特有的方法和属性。今天小编更新下建模中常用的pandas语句。

导入pandas和numpy模块

import pandas as pd

import numpy as np

import os
 

查看并更改工作路径

pwd

os.chdir('更改的路径')
 

读入数据集

df = pd.read_csv(r'文件路径')
 

查看列数、行数

print(df1.columns.size,df.iloc[:,0].size)
 

查看列名

df.columns.tolist()
 

查看每个特征的类型

for col in fk_df.columns:

print(col, fk_df[col].dtype)
 

计算坏账率

badRate = df['target'].sum()/df['target'].count()
 

计算特征空值率

null_rate = 1-df.count()/df.shape[0]
 

保留空值率小于0.2的特征

cols = null_rate[null_rate<0.2].index.tolist()
 

查找数据集数值中型特征小于0的值并置为nan

def rep(x):

if type(x) !=str and x < 0:

print(x)

return np.nan

return x

df = df.applymap(rep)
 

设置新的索引

df = df.reindex()
 

检查常量特征

df1= df.loc[:,df1.apply(pd.Series.nunique) != 1]
 

查看是否有重复特征

len(set(list(df1.columns))) == df1.shape[1]
 

查看特征类别数

df1['education'].value_counts()

本文来源:https://www.bwwdw.com/article/t33b.html

Top