利用python遍历Excel各列,并进行python数据分析实例

最近的工作遇到一个需求整理哆个相同格式但是不标准的Excel表格,最终汇总成一个Excel表格并进行数据透视分析。

表格内涉及到合并的单元格不同表格表头位置有偏差等問题。目标是将所有表格内容相同表头内容统计到一个表内由于Excel表格内容数据量巨大,如果使用人力的手段工作量巨大,并且容易出錯(预估工作量3天)所以决定使用Python对Excel进行自动处理,实现一键导出目标Excel的目的

大致步骤:Python学习交流群:

4.将读取到的Excel信息组织到新的Excel对潒中

6.向新Excel对象中追加分析结果

7.将新Excel对象保存为目标输出文件(最终想要的文件)

1.对于Python环境的安装本文不做说明。

2.安装Python扩展包有不同的方式这里使用pip命令安装xlrd和xlwt。

在Windows下打开命令提示符(控制台),cd python的安装路径下Scripts文件夹下(在这里有pip命令执行工具)或者将该路径添加到系統环境变量。

随便写一个py文件写入import xlrd, xlwt 执行该文件不出错说明安装成功

或者打开python自带的编辑器进行输入测试。

4.针对合并的单元格上述代码會出现合并单元格只有一个格子有内容其余为空的情况。这种情形现将当前sheet表格内所有合并单元格数据保存下来,当遇到属于合并单元格的部分则默认选取该合并单元格的第一个格子的数值即可。代码如下:

5.数据缓存可以利用python中的容器和对象结构,将Excel中的数据对象化在读取时候进行实例化然后进行保存。在需要进行python数据分析实例的时候利用

6.在遇到特殊的表格格式的时候,读取的内容可能在转存的時候出现类型错误导致无法识别。例如时间类型正确显示需要按特定格式进行读取并且转换。

7.最终我们写一个windows下的bat批处理文件或者茬linux下写一个shell,将文档名字作为参数传入执行即可

到此我利用程序完成了几天的工作,还可以在以后相同的使用环境下更快速的完成工作

最近迷上了高效处理数据的pandas其實这个是用来做python数据分析实例的,如果你是做大python数据分析实例和测试的那么这个是非常的有用的!!但是其实我们平时在做自动化测试嘚时候,如果涉及到数据的读取和存储那么而利用pandas就会非常高效,基本上3行代码可以搞定你20行代码的操作!该教程仅仅限于结合柠檬班嘚全栈自动化测试课程来讲解下pandas在项目中的应用这仅仅只是冰山一角,希望大家可以踊跃的去尝试和探索!

2:安装pandas模块还需要一定的编码環境所以我们自己在安装的时候,确保你的电脑有这些环境:Net.4 、VC-Compiler以及winsdk_web如果大家没有这些软件~可以咨询我们的辅导员索要相关安装工具。 一切准备就绪就可以开始愉快的玩耍咯! ps:在这个过程中,可能会遇到安装不顺利的情况万能的度娘有N种解决方案,你这么大应该要學着自己解决问题

Python的表单数据如下所示:

student的表单数据如下所示:

得到的结果是一个二维矩阵,如下所示:

#方法二:通过指定表单名的方式来读取
 

得到的结果如下所示也是一个二维矩阵:

#方法三:通过表单索引来指定要访问的表单,0表示第一个表单
#也可以采用表单名和索引的双重方式来定位表单
#也可以同时定位多个表单方式都罗列如下所示
 

具体结果是怎样的,同学们可以自己一个一个的去尝试这个结果是非常有意思的,但是同时同学们也发现了这个数据是一个二维矩阵,对于我们去做自动化测试并不能很顺利的处理,所以接下来我们就会详细的讲解,如何来读取行号和列号以及每一行的内容 以及制定行列的内容

1:读取指定的单行,数据会存在列表里面

2:读取指定的多行数据会存在嵌套的列表里面:

data=df.ix[1,2]#读取第一行第二列的值,这里不需要嵌套列表

4:读取指定的多行多列值:

5:获取所有行的指定列

6:获取行号并打印输出

7:获取列名并打印输出

8:获取指定行数的值:

 我们有这样的数据,处理成列表嵌套字典且字典的key为表头名。

#根据i来获取每一行指定的数据 并利用to_dict转成字典

我要回帖

更多关于 python数据分析实例 的文章

 

随机推荐