数据聚合
数据聚合允许我们对数据进行分组并计算统计信息,如求平均值、总和等。
生活例子
假设你有多个地区的水果销售数据,希望计算每种水果的总销售量。
import pandas as pd
# 示例数据
data = {
'Region': ['North', 'South', 'North', 'South'],
'Fruit': ['Apple', 'Apple', 'Banana', 'Banana'],
'Sales': [100, 200, 300, 150]
}
df = pd.DataFrame(data)
# 按水果类型分组并计算总销量
total_sales = df.groupby('Fruit')['Sales'].sum()
# 查看结果
print(total_sales)
代码说明
-
df.groupby('Fruit')['Sales'].sum():根据水果类型进行分组,并计算每种水果的总销售量。
处理缺失值
在数据集中,缺失值是常见的问题。Pandas 提供了多种方法来处理这些缺失值。
如果在你的销售数据中,有些水果的销售量缺失,你可能想要删除这些记录。
import pandas as pd
# 读取 CSV 文件
data = pd.read_csv('fruits.csv')
# 查看缺失值情况
print(data.isnull().sum())
# 删除含有缺失值的行
cleaned_data = data.dropna()
# 查看处理后的数据
print(cleaned_data)
代码说明
-
data.isnull().sum():检查每列的缺失值数量。
-
data.dropna():删除含有缺失值的行。