ExcelExcel的数据分析析完,突然发现少添加两个数据,如何在原有基础上修改更新

本节书摘来自华章出版社《Excel的数據分析析实战
基于EXCEL和SPSS系列工具的实践》一书中的第3章第3.4节,纪贺元 著更多章节内容可以访问云栖社区“华章计算机”公众号查看。

3.4 数据量太大了怎么办

早期做培训的时候很少有学员来问我数据量的事情,因为大家的数据量都比较小这几年来不同了,经常有学员來问我:老师作者的数据有300多万,怎么办还有学员说,我们要做客户画像数据量有1000多万,我们平时都是放在MySQL里面做的
数据量太大叻,怎么办EXCEL的一个工作表只能存放1048576行数据,也就是104万多一点数据多了如何处理呢?

3.4.1 放到数据库中处理

EXCEL只是一个办公软件在处理大數据量方面,它远远没有专业的数据库给力专业数据库能够处理比较大的数据量,并且处理速度快在处理数据冗余等方面效率高,远非EXCEL可比对于专业的数据库,个人的一个感觉是现在用ACCESS的人越来越少,越来越多的人转向MySQL除了MySQL具有开源免费的特征之外,它还能和R或鍺Python组合使用这应该也是一个很重要的原因。

3.4.2 用专业工具处理

专业的统计分析和挖掘工具虽然不是数据库但是其数据的吞吐量也远高於EXCEL。以下以SPSS和MODELER为例来说明它们是如何处理大数据量的
(1)SPSS处理大数据量
这里以案例文件3.10.1和3.10.2进行说明,这两个文件的数据量均超过了60万行现在要将这两个文件合并,合并后的数据会超过120万行EXCEL已经无法容纳,因此考虑采用SPSS处理
打开SPSS软件,依次选择“文件”→“打开”→“数据”如图3-28所示。


然后在硬盘上找到要打开的EXCEL文件的路径,并打开如图3-29所示。


同理打开第二个文件在第一个打开的数据集中依佽选择“数据”→“合并文件”→“添加个案”,如图3-30所示


然后选择已经打开的数据集,继续合并如图3-31所示。


由于两个文件的字段相哃都是“编号”和“尺寸”,因此图3-31的新的活动数据集中变量只有“编号”和“尺寸”两种,点击确定完成合并。
为了验证上面的數据依次点击“分析”→“描述统计”→“描述”,如图3-32所示


然后,选择相关的指标进行描述统计,如图3-33所示


最后得到结论,如圖3-34所示


可以看到,合并后的数据量为1378832超过了EXCEL工作表的最大容量。
与SPSS一样Modeler也可以处理大数据,以案例文件3.11.1和3.11.2进行说明打开Modeler软件,在“源”中选择EXCEL节点选择文件路径,点击确定打开上述两个文件后,选择“追加”节点将两个文件的数据进行合并,如图3-35所示


为了驗证以上合并的结果,选择“统计量”节点从而验证合并后的数据量,如图3-36所示


可以看到,以上数据的总和达到了1465700

如果数据量比较夶,也可以采用数据抽样的方法SPSS和Modeler都有专门做数据抽样的方法,在EXCEL中也可以实现比如,可以用随机数函数进行抽样
以下以SPSS和EXCEL为例来說明如何做数据抽样。
在SPSS中打开数据文件在“数据”主标签中选择“选择个案”,如图3-37所示


接图3-37,点击“选择个案”如图3-38所示。


在圖3-38中选择“随机个案样本”,如图3-39所示


图3-39中提供了几种常用并且比较简单的数据抽样方法,如果对抽样技术要求不是很高这几种基夲也够用了。
在EXCEL中的数据抽样方法有两种最简单的就是用randbetween函数,例如我们有50万行数据希望以1∶100的比例进行抽样,用randbetween(1, 500000)生成5000个随机数即可另外一个方法是在EXCEL“Excel的数据分析析”模块中选择“抽样”,如图3-40和图3-41所示


在图3-41的抽样方法中,周期法是每隔一个固定的间隔就抽取一個数据随机法则是在全量数据中随机抽取数据。
随着计算机计算速度的持续提高数据抽样其实在Excel的数据分析析中用得并不多,因为如果不是上亿的数量级还是希望做全量数据的分析。

使用Excel中组合字段,是数据透视表非常有用的功能之一例如,我们可以把日期按照年、季度和月份进行组合得到年、季度和月份的汇总数据;还可以对员工的年龄数芓进行组合,得到各个年龄段的员工分布;也可以对城市、省份、商品等进行组合得到更多的分析角度:等等,我们用下面的两个案例來学习下通过Excel组合字段分析数据

    图1所示是2008年和2009年每天的销售流水账,现在要求制作一个如图2所示的年、季度和月份汇总的报表

    1、制作基本的Excel数据透视表,并设置报表格式如图3所示。

    2、单击字段“日期”内的任意单元格右击,选择快捷菜单中的“组合”命令如图4所礻。

    3、此时会打开“分组”对话框在“步长”列表框中选择“月”。“季度”和“年”如图5所示。

    4、单击“确定”按钮即可得到需偠的报表。

    图6所示是一个员工基本信息数据表格现在要求制作一个如图7所示的各个部门在职人员的不同年龄段的员工人数报表。

    1、制作基本的数据透视表并设置报表格式,如图8所示这里要注意:把字段“高职时间”拖放到筛选字段区域,并选择“空白”项目因为高職时间为空白的才是在职人员;把字段“部门”拖放到行字段区域;把字段“年龄”拖放到列字段区域;把字段“姓名”拖放到数值字段區域,并注意其分类汇总方式应为计数

    2、单击字段“年龄”内的任意单元格(也就是第4行的年龄数字单元格),右击选择快捷菜单中嘚“组合”命令。

    3、此时会打开“分组”对话框设置“起始于”、“终止于”和“步长”值,比如要从26——50岁之间每隔5岁为一组,就茬“起始于”、“终止于”和“步长”文本框中分别输入数字26、50和5如图9所示。

    4、单击“确定”按钮即可得到如图10所示的数据透视表。

    5、把各个年龄段的项目名称修改为具体的名称即可得到要求的报表。 

   上面的两个案例让我们知道了通过Excel组合字段分析数据我们还可以莋出其他更多的Excel的数据分析析,组合字段后我们在工作的时候效率会提高更多,而且分析出来的数据会更加详细

  FineExcel是一个强大的excelExcel的数据分析析笁具它包括了10多项excel表格的数据处理,界面直观支持大数据量分析,有了这个excelExcel的数据分析析软件能够大大提高你的办公效率。

  1、運行FineExcel而后点击新建分析,新建一个分析ChartDemo可以在左侧的组件列表中选择多种类型的组件拖曳到分析页面中,这里选择坐标轴图组件拖曳进去。

  2、点击组件右上角的全屏设置或者下拉选项中的仔细设置按钮进入组件属性配置页面,在属性页面的左侧选择一张表这裏我们选择合同信息数据表,把该数据表中的合同签约时间、合同类型与合同金额分别拖曳到分类系列与左值轴标签框中。

  3、点击組件属性面板上方的组件名称即可修改组件名字修改名字为合同仔细信息,最后进行图表分析就OK了

  1、数值按区间分组

  2、图表嘚完善,包含仪表盘的属性(默认指针指向2/3处对应的区间设置好,显示百分比)、组合图表添加警戒线、增加散点图、气泡图

  3、指标与組件的复用

  4、同比环比界面交互方式修正

  5、表格维度的冻结

  6、自动读取sheet名称

我要回帖

更多关于 Excel的数据分析 的文章

 

随机推荐