2つのデータフレームを比較して違いを取得する [重複] 質問する

Question

このアプローチはdf1 != df2、行と列が同一のデータフレームに対してのみ機能します。実際、すべてのデータフレームの軸は_indexed_sameメソッドと比較され、列/インデックスの順序であっても違いが見つかった場合は例外が発生します。

私の理解が正しければ、変更点ではなく対称的な差異を見つけたいはずです。その場合、データフレームを連結するという方法があります。

>>> df = pd.concat([df1, df2])
>>> df = df.reset_index(drop=True)

グループ化

>>> df_gpby = df.groupby(list(df.columns))

一意のレコードのインデックスを取得する

>>> idx = [x[0] for x in df_gpby.groups.values() if len(x) == 1]

フィルター

>>> df.reindex(idx)
         Date   Fruit   Num   Color
9  2013-11-25  Orange   8.6  Orange
8  2013-11-25   Apple  22.1     Red

Answer 1

このアプローチはdf1 != df2、行と列が同一のデータフレームに対してのみ機能します。実際、すべてのデータフレームの軸は_indexed_sameメソッドと比較され、列/インデックスの順序であっても違いが見つかった場合は例外が発生します。

私の理解が正しければ、変更点ではなく対称的な差異を見つけたいはずです。その場合、データフレームを連結するという方法があります。

>>> df = pd.concat([df1, df2])
>>> df = df.reset_index(drop=True)

グループ化

>>> df_gpby = df.groupby(list(df.columns))

一意のレコードのインデックスを取得する

>>> idx = [x[0] for x in df_gpby.groups.values() if len(x) == 1]

フィルター

>>> df.reindex(idx)
         Date   Fruit   Num   Color
9  2013-11-25  Orange   8.6  Orange
8  2013-11-25   Apple  22.1     Red

おすすめ記事