1. 概述
    • Pandas是一个开源的、用于数据处理和分析的Python库。它提供了高效的数据结构,如Series(一维数据结构)和DataFrame(二维数据结构,类似表格),这些数据结构可以方便地处理各种类型的数据,包括数值型、字符型等。
  2. 主要数据结构
    • Series
      • 它是一种类似于一维数组的对象,包含一个数据数组和一个与之关联的索引数组。例如:
        import pandas as pd
        s = pd.Series([1, 3, 5, np.nan, 6, 8])
      • 可以通过索引来访问和操作其中的数据。索引可以是默认的整数索引,也可以是自定义的索引,如字符串等。
    • DataFrame
      • 这是Pandas的核心数据结构,它是一个二维表格型的数据结构。可以将它看作是由多个Series组成的,每个Series代表一列数据。例如:
        data = {'name': ['Alice', 'Bob', 'Charlie'],
           'age': [25, 30, 35],
           'city': ['New York', 'London', 'Paris']}
        df = pd.DataFrame(data)
      • 可以通过列名、行索引或者位置来访问和修改其中的数据。
  3. 数据读取和写入
    • 读取数据
      • Pandas可以读取多种格式的数据文件,如CSV、Excel、SQL数据库等。例如,读取CSV文件:
        df = pd.read_csv('data.csv')
      • 读取Excel文件:
        df = pd.read_excel('data.xlsx')
    • 写入数据
      • 可以将数据写入到各种格式的文件中。例如,将DataFrame写入CSV文件:
        df.to_csv('new_data.csv', index=False)
      • 写入Excel文件:
        df.to_excel('new_data.xlsx', sheet_name='Sheet1', index=False)
  4. 数据清洗和预处理
    • 缺失值处理
      • 可以使用dropna()方法删除包含缺失值的行或列。例如:
        df.dropna(axis = 0) # 删除包含缺失值的行
      • 也可以使用fillna()方法填充缺失值,如:
        df.fillna(0) # 用0填充缺失值
    • 重复值处理
      • 使用drop_duplicates()方法删除重复的行。例如:
        df.drop_duplicates()
    • 数据类型转换
      • 可以使用astype()方法转换列的数据类型。例如:
        df['age'] = df['age'].astype(int)
  5. 数据筛选和排序
    • 数据筛选
      • 根据条件筛选数据,例如,筛选出年龄大于30岁的行:
        df[df['age'] > 30]
    • 数据排序
      • 使用sort_values()方法对数据进行排序。例如,按照年龄升序排序:
        df.sort_values(by='age')
  6. 数据统计和描述性分析
    • 可以使用describe()方法获取数据的基本统计信息,如均值、中位数、标准差等。例如:
      df.describe()
    • 还可以计算列之间的相关性等统计指标,如corr()方法用于计算相关系数:
      df.corr()
  7. 数据分组和聚合
    • 分组
      • 使用groupby()方法对数据进行分组。例如,按照城市对数据进行分组:
        grouped = df.groupby('city')
    • 聚合
      • 可以对分组后的数据进行聚合操作,如计算每组的平均值:
        grouped.mean()
免责声明:本网站仅提供网址导航服务,对链接内容不负任何责任或担保。
相关资讯