python3 pandas 安装安装成功后运行不了

Pandas使用教程--Pandas安装与数据结构
Pandas 使用教程--Pandas 安装与数据结构
Pandas 是非常著名的开源数据处理库,我们可以通过它完成对数据集进行快速读取、转换、过滤、分析等一系列操作。除此之外,Pandas 拥有强大的缺失数据处理与数据透视功能,可谓是数据预处理中的必备利器。这是 Pandas 使用教程的第 1 章节,将学会安装它,并了解 Pandas 的数据结构。
Pandas 安装Pandas 数据结构
python2.7Xfce 终端ipython 终端
本课程难度为一般,属于初级级别课程,适合具有
基础,并对使用 Pandas 进行数据处理感兴趣的用户。
学习本课程之前,你可以先自行下载官方文档(英文)作为辅助学习资料。
http://pandas.pydata.org/pandas-docs/stable/pandas.pdf
Pandas 目前支持 Python 2.7, 3.4, 3.5, 和 3.6 版本。最简单的安装方式是通过 pip 完成。你可以打开终端,键入以下命令。
sudo pip install pandas
安装过程大约持续 1 分钟作用,会自动下载 numpy 等依赖包。注意,本课程的全部内容基于 Pandas 0.20.3 版本,如果和你当前学习的版本存在不兼容,请通过以下命令安装 0.20.3 版本。
sudo pip install -v pandas==0.20.3
在正式学习使用 Pandas 进行数据预处理之前,我们先来了解 Pandas 的数据结构。Pandas 大致拥有 3 类数据结构,分别是一维数据 Series、二维数据 DataFrame、以及三维数据 Panel(目前依旧被融入 MultiIndex DataFrame 多维数据)。
下面的内容均在 iPython 交互式终端中演示,你可以通过在线环境左下角的应用程序菜单 & 附件打开。如果你在本地进行练习,推荐使用 Jupyter Notebook 环境。
Series 是 Pandas 中最基本的 1 维数据形式。其可以储存整数、浮点数、字符串等形式的数据。Series 的新建方法如下:
s = pandas.Series(data, index=index)
其中,data 可以是字典、numpy 里的 ndarray 对象等。index 是数据索引,索引是 pandas 数据结构中的一大特性,它主要的功能是帮助我们更快速地定位数据,这一点后面会谈到。
下面,我们将把不同类型的数据转换为为 Series。首先是字典类型。
import pandas as pd
d = {'a' : 10, 'b' : 20, 'c' : 30}
print pd.Series(d)
这里,数据值是 10, 20, 30,索引为 a, b, c 。我们可以直接通过 index= 参数来设置新的索引。
import pandas as pd
d = {'a' : 10, 'b' : 20, 'c' : 30}
s = pd.Series(d, index=['b', 'c', 'd', 'a'])
你会发现,pandas 会自动匹配人为设定的索引值和字典转换过来的索引值。而当索引无对应值时,会显示为 NaN 缺失值。
ndarray 是著名数值计算包 numpy 中的多维数组。我们也可以将 ndarray 直接转换为 Series。
import pandas as pd
import numpy as np
data = np.random.randn(5) # 一维随机数
index = ['a', 'b', 'c', 'd', 'e'] # 指定索引
s = pd.Series(data, index)
上面的两个例子中,我们都指定了 index 的值。而当我们非人为指定索引值时,Pandas 会默认从 0 开始设置索引值。
s = pd.Series(data)
当我们需要从一维数据 Series 中返回某一个值时,可以直接通过索引完成。
import pandas as pd
import numpy as np
data = np.random.randn(5) # 一维随机数
index = ['a', 'b', 'c', 'd', 'e'] # 指定索引
s = pd.Series(data, index)
print s['a']
除此之外,Series 是可以直接进行运算的。例如:
import pandas as pd
import numpy as np
data = np.random.randn(5) # 一维随机数
index = ['a', 'b', 'c', 'd', 'e'] # 指定索引
s = pd.Series(data, index)
DataFrame 是 Pandas 中最为常见、最重要且使用频率最高的数据结构。你可以想到它箱型为电子表格或 SQL 表具有的结构。DataFrame 可以被看成是以 Series 组成的字典。它和 Series 的区别在于,不但具有行索引,且具有列索引。
DataFrame 可以用于储存多种类型的输入:
一维数组、列表、字典或者 Series 字典。二维 numpy.ndarray。结构化的 ndarray。一个 Series。另一个 DataFrame。
import pandas as pd
# 带 Series 的字典
d = {'one' : pd.Series([1., 2., 3.], index=['a', 'b', 'c']),'two' : pd.Series([1., 2., 3., 4.], index=['a', 'b', 'c', 'd'])}
df = pd.DataFrame(d)
# 新建 DataFrame
我们可以看到,这里的行索引为 a, b, c, d ,而列索引为 one, two。
import pandas as pd
# 列表构成的字典
d = {'one' : [1, 2, 3, 4], 'two' : [4, 3, 2, 1]}
df1 = pd.DataFrame(d) # 未指定索引
df2 = pd.DataFrame(d, index=['a', 'b', 'c', 'd']) # 指定索引
注意观察它们之间的不同。
import pandas as pd
# 带字典的列表
d = [{'a': 1, 'b': 2}, {'a': 5, 'b': 10, 'c': 20}]
df = pd.DataFrame(d)
pandas 的 DataFrame 下面还有 4 个以 from_ 开头的方法,这也可以用来创建 Dataframe。
import pandas as pd
d = [('A', [1, 2, 3]), ('B', [4, 5, 6])]
c = ['one', 'two', 'three']
df = pd.DataFrame.from_items(d, orient='index', columns=c)
接下来,我们延续上面的 4.4 里面的数据来演示。
在一维数据结构 Series 中,我们用 df['标签'] 来选择行。而到了二维数据 DataFrame 中,df['标签'] 表示选择列了。例如:
print df['one']
删除列的方法为 df.pop('列索引名'),例如:
df.pop('one')
添加列的方法未 df.insert(添加列位置索引序号, '添加列名', 数值),例如:
df.insert(3, 'four', [10, 20])
Panel 是 Pandas 中使用频率较低的一种数据结构,但它是三维数据的重要容器。
Panel data 又称面板数据,它是计量经济学中派生出来的一个概念。在计量经济学中,数据大致可分为三类:截面数据,时间序列数据,以及面板数据。而面板数据即是截面数据与时间序列数据综合起来的一种数据类型。
简单来讲,截面数据指在某一时间点收集的不同对象的数据。而时间序列数据是指同一对象在不同时间点所对应的数据集合。
这里引用一个城市和 GDP 关系的示例来解释上面的三个概念():
截面数据:
例如城市:北京、上海、重庆、天津在某一年的 GDP 分别为10、11、9、8(单位亿元)。
时间序列数据:
例如:、、2004 各年的北京市 GDP 分别为8、9、10、11、12(单位亿元)。
面板数据:
、、2004 各年中国所有直辖市的 GDP 分别为(单位亿元):北京市分别为 8、9、10、11、12;上海市分别为 9、10、11、12、13;天津市分别为 5、6、7、8、9;重庆市分别为 7、8、9、10、11。
在 Pandas 中,Panel 主要由三个要素构成:
items: 每个项目(item)对应于内部包含的 DataFrame。major_axis: 每个 DataFrame 的索引(行)。minor_axis: 每个 DataFrame 的索引列。
简而言之,在 Pandas 中,一个 Panel 由多个 DataFrame 组成。下面就生成一个 Panel。
import pandas as pd
import numpy as np
wp = pd.Panel(np.random.randn(2, 5, 4), items=['Item1', 'Item2'], major_axis=pd.date_range('1/1/2000', periods=5), minor_axis=['A', 'B', 'C', 'D'])
我们可以看到,wp 由 2 个项目、5 个主要轴和 4 个次要轴组成。其中,主要轴由
这 5 天组成的时间序列,次轴从 A 到 D。
你可以输出 Item1 看一看。
print wp['Item1']
再看一看 Item2。
print wp['Item2]
可以看到,这两个 Dataframe 的行索引及列索引是一致的。由于数据是随机生成的,所以不一致。
由于 Panel 在 Pandas 中的使用频率远低于 Series 和 DataFrame,所以 Pandas 决定在未来的版本中将 Panel 移除,转而使用 MultiIndex DataFrame 来表示多维数据结构。
这里,可以用到 Panel.to_frame() 输出多维数据结构。就拿上面的例子继续:
print wp.to_frame()
这一章节,我们着重介绍了 Pandas 的数据结构,只有熟悉了这三种(尤其是前两种)数据结构之后,才能对后面采用 Pandas 进行数据预处理有更深刻的理解。
你知道 Pandas 的名字是怎么来的吗?小某已经消失很长时间了,现在回来了,(*^__^*) 嘻嘻……
1.关于Scripy的安装(寒假装的。。。。)
这个需要依赖很多包才能运行,大家可以借鉴一下这篇博客。
每安装一个,就要在Python中import一下,看看是否已安装。在安装过程中,遇到的问题就是弹出一个提示错误的对话框,就是安装的版本不合适,需要换一个版本。
如果网速好,可以用pip安装的话,建议大家去看这篇博客。
2.numpy和matplotlib的安装
安装这个很痛苦呀。电脑上有pycharm,然后就在setting-&Project Interpreter里面搜索t添加了一下,让他自动安装,结果就会报错的。
然后在命令提示符中用pip安装,报错,意思是官网是无法打开的!!!!
(我回来补充一点:终于知道pip为什么不行了,原来是网速的问题,还以为官网已经不存在了呢!网速快的话,用pip安装时,嗖嗖的,就像吃了炫迈~~~~)
然后又去下载了.whl格式的文件,提示没有安装wheel,又用pip,,又回到了上面官网无法打开的错误!!!
最后,直接下载了两个.exe格式的文件,终于搞定了。
3.安装 Anaconda
Anaconda是一个科学计算库,包括了numpy,sicpy,matplotlib,spyder……等。(早知道这个就好了。)
安装过程很简单,是一个.exe文件,一步一步进行就可以了。
安装好之后,电脑中就会多了这些东西。
& & & & &&
anaconda的简单使用,大家可以打开右边的链接:
安装了anaconda,就可以直接导入pandas了。也可以通过pip安装,但是还要安装相应的的其他依赖包。
到下载pandas及其依赖包,包括&
pyparsing-2.0.2.win32-py2.7.exe
matplotlib-1.3.1.win32-py2.7.exe
openpyxl-openpyxl-5d2c0c874d2.tar.gz
setuptools-3.8.1.win32-py2.7.exe
numpy-MKL-1.8.1.win32-py2.7.exe
six-1.7.3.win32-py2.7exe
python-dateutil-2.2.win32-py2.7.exe
安装后测试一下,import,不报错则安装成功。
pandas构建在numpy之上,是很强大的数据分析工具。
学习pandas的基础知识,基本的数据结构是Series和DataFrame。主要是在以下网页中学习的:
(第二个链接中一开始定义的Series和小某的结果是不一样的,代码完全一样, 小某觉得自己的是对的!西西。。)
本文已收录于以下专栏:
相关文章推荐
安装pandas
1. Anaconda
安装pandas、Python和SciPy最简单的方式是用Anaconda。Anaconda是关于Python数据分析和科学计算的分发包。
64位Python安装numpy,matpoltlib,pandas完全教程我是量化投资还有机器学习的入门者,在一些比较好的量化投资平台比如ricequant这种,python的numpy,matpo...
一. 安装pandas
1. Anaconda
安装pandas、Python和SciPy最简单的方式是用Anaconda。Anaconda是关于Python数据分析和科学计算的分...
1、首先安装最新的pip
2、pip install xxxx(包名)
安装需要的包
3、pip list –outdated 列出所有过期的包
4、pip install -upgrade ...
开始我的Python之旅。
关于扩展库的安装,今天介绍Numpy和Pandas的安装过程。
Pandas是Python下最强的数据分析和探索工具(可能有之一吧),在处理数据时很有帮助,例如进行数据...
手动安装:
安装VCForPython27.msi,visual studio 2010
安装pandas : pip install pandas, numpy, pytz, python-da...
最近在PyCharm上安装pandas库的时候,总是安装不上,提示好像是pip除了错误。我使用的是python 3.4版本。最后判断应该是自己pip版本应该太旧了,最后再cmd更新了pip之后就行了。...
重玩python,安装pandas
pandas pycharm pip一堆工具
1, 安装Python,python.exe文件在 Python 目录下, 添加环境变量
2, 安装pip。 p...
一. 安装pandas
1. Anaconda
安装pandas、Python和SciPy最简单的方式是用Anaconda。Anaconda是关于Python数据分析和科学计算的分...
他的最新文章
讲师:董岩
您举报文章:
举报原因:
原文地址:
原因补充:
(最多只允许输入30个字)jupyter安装小结
投稿:hebedich
字体:[ ] 类型:转载 时间:
jupyter (之前的 ipython notebook )于我的最大意义在于,让学习进程和探索进程变得可累积,正如它的原先名字中的 notebook 所暗示的那样,作为学习的记录者,方便你随时捡起学习的进度,增量式地前进
前段时间一直使用pycharm写pandas程序,对于大数据开发而言,开发一般是走一步想一步,pycharm不适合。网上推荐使用jupyter notebook,它是一个web版的编辑器,原来是IPython的一部分,后来拆分出来了。安装了一把,发现比较麻烦,网上的资料也比较老了,不适合。总结一下与大家分享。
我是ubuntu系统,我是通过pip安装的。
Pyzmq是zeromq的Python绑定。zeromq是一个消息内核,从网络通信的角度看,它处于会话层之上,应用层之下,有了它,你甚至不需要自己写一行的socket函数调用就能完成复杂的网络通信工作。
安装命令:
pip install pyzmq
安装tornado
Tornado是python编写的非阻塞式服务器,它使用epoll管理连接,每秒可以处理数以千计的连接,是一个理想的 Web 实时处理框架。
安装命令:
pip install tornado
安装Jinja2
Jinja2是Python下一个被广泛应用的模版引擎,他的设计思想来源于Django的模板引擎,并扩展了其语法和一系列强大的功能。其中最显著的一个是增加了沙箱执行功能和可选的自动转义功能,这对大多应用的安全性来说是非常重要的。
安装命令:
pip install jinja2
安装jsonschema
jasonschema 用来描述Json数据格式,Json模式有多种用途,其中之一就是实例认证。
安装命令:pip install jsonschema
安装jupyter
从前面安装的组件可以看出,jupyter实际就是个tornado框架的web应用,使用MQ进行消息管理。
安装命令:pip install jupyter
这个安装遇到了一些问题,安装jupyter成功了一半,只可以编辑文档,但是不能进行python程序运行。
后来导致我执行pip list也失败了,最后将pip 升级了一把,然后卸载jupyter,再重新安装,工作正常了。ubuntu安装还有权限问题,我最后是通过root权限安装的jupyter。
您可能感兴趣的文章:
大家感兴趣的内容
12345678910
最近更新的内容
常用在线小工具12:03 提问
Ubuntu10.04中安装python-pandas始终无法成功安装
刚开始,用命令sudo apt-get install python-pandas显示无法找到软件包。然后在网上找python-pandas
ppa安装后显示如下
请问各路大神怎么解决?
按赞数排序
换系统吧,版本太低,
ubuntu最好不要去更新它提示你更新的东东,不然你会被坑死
你的ubuntu版本太老了,最好升到14.04等,然后更新系统所有组件,比如python等,然后再安装
10.04,实在太老了,都5年前的版本了。也不是说一定不能装,但是要先升级那些列出的依赖项,直到它们都满足了,再装。比如python就要先升级到1.7
同时楼主在安装ubuntu的时候最好利用U盘安装,本人试过很多次的系统内直接安装,但是到最后都失败了,怎么都安装不进去。
还是先更新在安装吧。。。。。。。。。。
其他相关推荐&&&您需要以后才能回答,未注册用户请先。

我要回帖

更多关于 如何安装pandas 的文章

 

随机推荐