Pandas Pivot Table 中计算百分比（百分比.计算.Pandas.Pivot.Table...）

pandas pivot table 中计算百分比

本文旨在指导读者如何在 Pandas 的 pivot_table 中计算百分比，即一个数值列除以另一个数值列的结果，并将结果整合到原有的 pivot_table 中，最终展示百分比数据。我们将利用 DataFrame.xs 函数选取 MultiIndex 的数据，进行重命名和除法运算，最后将结果合并到原始 DataFrame 中。

计算 Pandas Pivot Table 中的百分比

在使用 Pandas 进行数据分析时，pivot_table 是一个强大的工具，可以对数据进行分组和聚合。然而，有时我们需要在 pivot_table 中计算百分比，例如计算点击率（点击次数/浏览次数）。本文将介绍一种有效的方法来实现这一目标。

使用 DataFrame.xs 和除法运算

假设我们有一个 DataFrame，其中包含 users_who_clicked 和 users_who_viewed 两列，分别表示点击次数和浏览次数。我们的目标是创建一个 pivot_table，并在其中添加一列，显示点击率。

以下是一种实现方法：

PIA

全面的AI聚合平台，一站式访问所有顶级AI模型

226 查看详情 PIA

import pandas as pd

# 示例数据
d = {('users_who_clicked','a'): [5, 6, 7, 8], 
     ('users_who_clicked','b'): [9, 10, 11, 12], 
     ('users_who_viewed','a'): [4, 1, 3, 7], 
     ('users_who_viewed','b'): [1, 3, 7, 3]}

df = pd.DataFrame(data=d)
print("Original DataFrame:\n", df)

# 1. 使用 DataFrame.xs 选取 'users_who_clicked' 列
df1 = (df.xs('users_who_clicked', axis=1, level=0, drop_level=False)
         .rename(columns={'users_who_clicked':'%'}, level=0))

# 2. 使用 DataFrame.xs 选取 'users_who_viewed' 列
df2 = (df.xs('users_who_viewed', axis=1, level=0, drop_level=False)
         .rename(columns={'users_who_viewed':'%'}, level=0))

# 3. 计算百分比
out = pd.concat([df, df1.div(df2)], axis=1)  
print("\nDataFrame with Percentage:\n", out)

代码解释：

df.xs('users_who_clicked', axis=1, level=0, drop_level=False): 这行代码使用 DataFrame.xs 函数，从原始 DataFrame 中选取第一层索引为 'users_who_clicked' 的所有列。axis=1 指定按列选取，level=0 指定选取第一层索引，drop_level=False 表示保留索引层级。
.rename(columns={'users_who_clicked':'%'}, level=0): 这行代码将选取的列的第一层索引重命名为 '%'，用于表示百分比列。
df1.div(df2): 这行代码将 df1 中的数据除以 df2 中的数据，从而计算出百分比。因为 df1 和 df2 的列索引相同，所以除法运算会自动对齐。
pd.concat([df, df1.div(df2)], axis=1): 这行代码使用 pd.concat 函数，将原始 DataFrame 和计算出的百分比列拼接在一起。axis=1 指定按列拼接。

输出结果：

Original DataFrame:
   users_who_clicked     users_who_viewed          
                  a   b                a  b
0                 5   9                4  1
1                 6  10                1  3
2                 7  11                3  7
3                 8  12                7  3

DataFrame with Percentage:
   users_who_clicked     users_who_viewed            %          
                  a   b                a  b         a         b
0                 5   9                4  1  1.250000  9.000000
1                 6  10                1  3  6.000000  3.333333
2                 7  11                3  7  2.333333  1.571429
3                 8  12                7  3  1.142857  4.000000

注意事项

确保用于除法运算的列的数据类型是数值类型，否则可能会出现错误。
如果除数为零，可能会导致 ZeroDivisionError。可以使用 numpy.where 或其他方法来处理这种情况。例如，可以将除数为零的结果设置为 NaN 或其他合适的值。
根据实际情况调整代码中的列名和索引层级。

总结

本文介绍了一种在 Pandas pivot_table 中计算百分比的有效方法。通过使用 DataFrame.xs 函数选取 MultiIndex 的数据，进行重命名和除法运算，最后将结果合并到原始 DataFrame 中，我们可以轻松地在 pivot_table 中添加百分比列，从而更好地分析数据。这种方法不仅适用于计算点击率，还可以用于计算其他类型的百分比，例如转化率、完成率等。掌握这种方法可以帮助你更有效地使用 Pandas 进行数据分析。

以上就是Pandas Pivot Table 中计算百分比的详细内容，更多请关注知识资源分享宝库其它相关文章！

相关标签：工具 numpy pandas 数据类型值类型 table 数据分析大家都在看： python编程工具有哪些 mac json格式化工具安装pip工具的步骤 json转换excel工具格式化json数据的工具