pandas cut qcut的cut怎么看各部分的个数

羽毛球技术 | 体育赛事 | 英文歌曲 | 住宅风水 | 用户界面设计师 | 六爻 | 书籍改编电影 | 德国足球甲级联赛 | 欧美明星 | PLC | 中国足球 | aj1 | 国家队 | 拜仁慕尼黑足球俱乐部 | 小说创作 | 配音 | iOS应用 | NBA 2K | 古典音乐 | 面相 | 火影忍者 | 武汉大学 | 土拨鼠 | 营销策划 | 秦时明月之天行九歌 | 设计师 | 巴塞罗那足球俱乐部 | 尤文图斯 | 实况足球（游戏） | 少帅 | 罗玉凤 | 比利时 | 跑鞋 | 冷知识 | 肖战 | 李元胜 | 古琴 | 按键精灵 | 罗兰 | 徐波 | 激光手术 | 角色扮演 | 关晓彤 | 微电影 | safari | 北京国安 | 古汉语 | 曼彻斯特联 | 玄幻小说 | 科幻小说 | 双眼皮手术 | 主题曲 | 年会 | 检测仪 | 徒步 | 互联网公司 | 百度输入法 | 镜头 | 宜昌市 | 自拍 | 金蝶 | 电子烟 | 网站建设 | 广播体操 | 文身 | nba篮球 | 索尼(sony) | 天体物理学 | 痛风 | 象棋 | 牛皮癣 | 皮肤护理 | 周星驰（人物） | 试管婴儿 | 亚足联亚洲杯（AFC Asian Cup） | 健美 | 美术生 | 迅雷（软件） | 战斗机 | 穿越小说 | 张璐 | 姓氏 | 诸葛亮 | 后宫·甄嬛传（书籍） | 虎牙直播 | snh48 | 阿迪达斯 | 投影仪 | 组装机 | 微信群 | 阿迪达斯(adidas) | 网球王子 | 分子生物学 | 耽美 | 武磊 | 婚礼 | 表演 | 中国武术 | 动画电影 | Air Jordan | 张子枫 | 免费软件 | 相声演员 | 摩羯座 | 宿舍 | ansys | 法国足球甲级联赛 | 户外 | 剧场版 | 杨凡 | 科幻电影 | galgame | 融资 | 关节炎 | NBA季后赛 | 神话 | 王力宏（人物） | 建模 | 计算机病毒 | 广州恒大淘宝足球俱乐部 | 北京奥运会 | 电脑电源 | 百度翻译 | 字幕 | 讯飞输入法 | 海关 | 易烊千玺 | 深度学习 | 编辑器 | 澳门特别行政区 | 直播 | 流氓软件 | 事故 | 大片 | 李景亮 | 郭富城 | 日语歌曲 | 卡牌游戏 | 小品 | 东京 | 花卉 | 音乐剧 | 互联网创业 | 占卜 | 羽毛球拍 | 婆媳关系 | 日本动画 | 巴黎 | 拳击比赛 | 东南亚 | 足球经理（FM）（游戏） | youtube | 胡歌（演员） | 地铁跑酷 | 植发 | 张继科 | 三国 | 用户界面 | 演技 | 百度竞价 | 青梅竹马 | 移动硬盘 | 韩晓鹏 | 马龙 | 瘦腿 | 宠物医疗 | 巨蟹座 | 徐峥 | 天蝎座 | 胸肌 | 赵丽颖（演员） | adidas阿迪达斯 | 低音炮 | 星际争霸（游戏） | 豆瓣电影 | 微信开放平台 | 手绘 | 吉他学习 | 江苏卫视 | 模特 | 创意 | 团队管理 | 奢侈品 | 王源 | TANK | 笛子 | 偶像 | 莱斯特城 | 维生素 | 新百伦 | 国际物流 | 前女友 | 李小龙 | 华语流行音乐 | 猎头公司 | crm | 搏击项目 | 网站运营 | 鼻炎 | 篮球游戏 |

你的位置：网站首页 >> 频道首页 >>学习 >>pandas cut qcut的cut怎么看各部分的个数

pandas cut qcut的cut怎么看各部分的个数

来源：蜘蛛抓取(WebSpider) 时间：2016-08-26 05:21 标签： pandas cut 分组

用 Python 做数据处理必看：12 个使效率倍增的 Pandas 技巧（下）
7 – 数据框合并
当我们有收集自不同来源的数据时，合并数据框就变得至关重要。假设对于不同的房产类型，我们有不同的房屋均价数据。让我们定义这样一个数据框：
prop_rates = pd.DataFrame([, 12000], index=['Rural','Semiurban','Urban'],columns=['rates'])
prop_rates
现在可以把它与原始数据框合并：
data_merged = data.merge(right=prop_rates, how='inner',left_on='Property_Area',right_index=True, sort=False)
data_merged.pivot_table(values='Credit_History',index=['Property_Area','rates'], aggfunc=len)
这张透视表验证了合并成功。注意这里的 ‘values’无关紧要，因为我们只是单纯计数。
想了解更多请阅读Pandas Reference (merge)
8 – 给数据框排序
Pandas可以轻松基于多列排序。方法如下：
data_sorted = data.sort_values(['ApplicantIncome','CoapplicantIncome'], ascending=False)
data_sorted[['ApplicantIncome','CoapplicantIncome']].head(10)
注：Pandas 的“sort”函数现在已经不推荐使用，我们用 “sort_values”函数代替。
想了解更多请阅读Pandas Reference (sort_values)
9 – 绘图（箱型图&直方图）
许多人可能没意识到Pandas可以直接绘制箱型图和直方图，不必单独调用matplotlib。只需要一行代码。举例来说，如果我们想根据贷款状态Loan_Status来比较申请者收入ApplicantIncome：
data.boxplot(column=&ApplicantIncome&,by=&Loan_Status&)
data.hist(column=&ApplicantIncome&,by=&Loan_Status&,bins=30)
可以看出获得/未获得贷款的人没有明显的收入差异，即收入不是决定性因素。
想了解更多请阅读Pandas Reference (hist) | Pandas Reference (boxplot)
10 – 用Cut函数分箱
有时把数值聚集在一起更有意义。例如，如果我们要为交通状况（路上的汽车数量）根据时间（分钟数据）建模。具体的分钟可能不重要，而时段如“上午”“下午”“傍晚”“夜间”“深夜”更有利于预测。如此建模更直观，也能避免过度拟合。
这里我们定义一个简单的、可复用的函数，轻松为任意变量分箱。
def binning(col, cut_points, labels=None):
#Define min and max values:
minval = col.min()
maxval = col.max()
#利用最大值和最小值创建分箱点的列表
break_points = [minval] + cut_points + [maxval]
#如果没有标签，则使用默认标签0 ... (n-1)
if not labels:
labels = range(len(cut_points)+1)
#使用pandas的cut功能分箱
colBin = pd.cut(col,bins=break_points,labels=labels,include_lowest=True)
return colBin
#为年龄分箱:
cut_points = [90,140,190]
labels = [&low&,&medium&,&high&,&very high&]
data[&LoanAmount_Bin&] = binning(data[&LoanAmount&], cut_points, labels)
print pd.value_counts(data[&LoanAmount_Bin&], sort=False)
想了解更多请阅读 Pandas Reference (cut)
11 – 为分类变量编码
有时，我们会面对要改动分类变量的情况。原因可能是：
有些算法（如罗吉斯回归）要求所有输入项目是数字形式。所以分类变量常被编码为0, 1….(n-1)
有时同一个分类变量可能会有两种表现方式。如，温度可能被标记为“High”， “Medium”， “Low”，“H”， “low”。这里 “High” 和 “H”都代表同一类别。同理， “Low” 和“low”也是同一类别。但Python会把它们当作不同的类别。
一些类别的频数非常低，把它们归为一类是个好主意。
这里我们定义了一个函数，以字典的方式输入数值，用‘replace’函数进行编码。
#使用Pandas replace函数定义新函数：
def coding(col, codeDict):
colCoded = pd.Series(col, copy=True)
for key, value in codeDict.items():
colCoded.replace(key, value, inplace=True)
return colCoded
#把贷款状态LoanStatus编码为Y=1, N=0:
print 'Before Coding:'
print pd.value_counts(data[&Loan_Status&])
data[&Loan_Status_Coded&] = coding(data[&Loan_Status&], {'N':0,'Y':1})
print '\nAfter Coding:'
print pd.value_counts(data[&Loan_Status_Coded&])
编码前后计数不变，证明编码成功。
想了解更多请阅读 Pandas Reference (replace)
12 – 在一个数据框的各行循环迭代
这不是一个常见的操作。但你总不想卡在这里吧？有时你会需要用一个for循环来处理每行。例如，一个常见的问题是变量处置不当。通常见于以下情况：
带数字的分类变量被当做数值。
（由于出错）带文字的数值变量被当做分类变量。
所以通常来说手动定义变量类型是个好主意。如我们检查各列的数据类型：
#检查当前数据类型：
data.dtypes
这里可以看到分类变量Credit_History被当作浮点数。对付这个问题的一个好办法是创建一个包含变量名和类型的csv文件。通过这种方法，我们可以定义一个函数来读取文件，并为每列指派数据类型。举例来说，我们创建了csv文件。
#载入文件:
colTypes = pd.read_csv('datatypes.csv')
print colTypes
载入这个文件之后，我们能对每行迭代，把用‘type’列把数据类型指派到‘feature’ 列对应的项目。
#迭代每行，指派变量类型。
#注，astype用来指定变量类型。
for i, row in colTypes.iterrows(): #i: dataframe索引; row: 连续的每行
if row['feature']==&categorical&:
data[row['feature']]=data[row['feature']].astype(np.object)
elif row['feature']==&continuous&:
data[row['feature']]=data[row['feature']].astype(np.float)
print data.dtypes
现在信用记录这一列的类型已经成了‘object’ ，这在Pandas中代表分类变量。
想了解更多请阅读Pandas Reference (iterrows)
看过本文的人也看了：
我要留言技术领域：
取消收藏确定要取消收藏吗？
删除图谱提示你保存在该图谱下的知识内容也会被删除，建议你先将内容移到其他图谱中。你确定要删除知识图谱及其内容吗？
删除节点提示无法删除该知识节点，因该节点下仍保存有相关知识内容！
删除节点提示你确定要删除该知识节点吗？

pandas cut qcut的cut怎么看各部分的个数

我要回帖

更多关于 pandas cut 分组的文章

随机推荐

pandas cut qcut的cut怎么看各部分的个数

我要回帖

更多关于 pandas cut 分组 的文章

随机推荐

更多关于 pandas cut 分组的文章