Pandas

数据处理和分析工具

编程工具

1 年前

7674

668

直达应用

概述
- Pandas是一个开源的、用于数据处理和分析的Python库。它提供了高效的数据结构，如Series（一维数据结构）和DataFrame（二维数据结构，类似表格），这些数据结构可以方便地处理各种类型的数据，包括数值型、字符型等。
主要数据结构
- Series
  - 它是一种类似于一维数组的对象，包含一个数据数组和一个与之关联的索引数组。例如：
```
import pandas as pd
s = pd.Series([1, 3, 5, np.nan, 6, 8])
```
  - 可以通过索引来访问和操作其中的数据。索引可以是默认的整数索引，也可以是自定义的索引，如字符串等。
- DataFrame
  - 这是Pandas的核心数据结构，它是一个二维表格型的数据结构。可以将它看作是由多个Series组成的，每个Series代表一列数据。例如：
```
data = {'name': ['Alice', 'Bob', 'Charlie'],
   'age': [25, 30, 35],
   'city': ['New York', 'London', 'Paris']}
df = pd.DataFrame(data)
```
  - 可以通过列名、行索引或者位置来访问和修改其中的数据。
数据读取和写入
- 读取数据
  - Pandas可以读取多种格式的数据文件，如CSV、Excel、SQL数据库等。例如，读取CSV文件：
```
df = pd.read_csv('data.csv')
```
  - 读取Excel文件：
```
df = pd.read_excel('data.xlsx')
```
- 写入数据
  - 可以将数据写入到各种格式的文件中。例如，将DataFrame写入CSV文件：
```
df.to_csv('new_data.csv', index=False)
```
  - 写入Excel文件：
```
df.to_excel('new_data.xlsx', sheet_name='Sheet1', index=False)
```
数据清洗和预处理
- 缺失值处理
  - 可以使用dropna()方法删除包含缺失值的行或列。例如：
```
df.dropna(axis = 0) # 删除包含缺失值的行
```
  - 也可以使用fillna()方法填充缺失值，如：
```
df.fillna(0) # 用0填充缺失值
```
- 重复值处理
  - 使用drop_duplicates()方法删除重复的行。例如：
```
df.drop_duplicates()
```
- 数据类型转换
  - 可以使用astype()方法转换列的数据类型。例如：
```
df['age'] = df['age'].astype(int)
```
数据筛选和排序
- 数据筛选
  - 根据条件筛选数据，例如，筛选出年龄大于30岁的行：
```
df[df['age'] > 30]
```
- 数据排序
  - 使用sort_values()方法对数据进行排序。例如，按照年龄升序排序：
```
df.sort_values(by='age')
```
数据统计和描述性分析
- 可以使用describe()方法获取数据的基本统计信息，如均值、中位数、标准差等。例如：
```
df.describe()
```
- 还可以计算列之间的相关性等统计指标，如corr()方法用于计算相关系数：
```
df.corr()
```
数据分组和聚合
- 分组
  - 使用groupby()方法对数据进行分组。例如，按照城市对数据进行分组：
```
grouped = df.groupby('city')
```
- 聚合
  - 可以对分组后的数据进行聚合操作，如计算每组的平均值：
```
grouped.mean()
```