重複したインデックスを持つパンダの行を削除する質問する

Question

私は、重複したPandas インデックス自体のメソッド:

df3 = df3[~df3.index.duplicated(keep='first')]

他の方法はすべて機能しますが、.drop_duplicates提供された例では、最もパフォーマンスが低いです。さらに、groupby メソッドパフォーマンスはわずかに劣りますが、複製されたメソッドの方が読みやすいと思います。

提供されたサンプルデータの使用:

>>> %timeit df3.reset_index().drop_duplicates(subset='index', keep='first').set_index('index')
1000 loops, best of 3: 1.54 ms per loop

>>> %timeit df3.groupby(df3.index).first()
1000 loops, best of 3: 580 µs per loop

>>> %timeit df3[~df3.index.duplicated(keep='first')]
1000 loops, best of 3: 307 µs per loop

keep 引数をに変更すると、最後の要素を保持できることに注意してください'last'。

MultiIndexまた、この方法は（パウロの例):

>>> %timeit df1.groupby(level=df1.index.names).last()
1000 loops, best of 3: 771 µs per loop

>>> %timeit df1[~df1.index.duplicated(keep='last')]
1000 loops, best of 3: 365 µs per loop

Answer 1

私は、重複したPandas インデックス自体のメソッド:

df3 = df3[~df3.index.duplicated(keep='first')]

他の方法はすべて機能しますが、.drop_duplicates提供された例では、最もパフォーマンスが低いです。さらに、groupby メソッドパフォーマンスはわずかに劣りますが、複製されたメソッドの方が読みやすいと思います。

提供されたサンプルデータの使用:

>>> %timeit df3.reset_index().drop_duplicates(subset='index', keep='first').set_index('index')
1000 loops, best of 3: 1.54 ms per loop

>>> %timeit df3.groupby(df3.index).first()
1000 loops, best of 3: 580 µs per loop

>>> %timeit df3[~df3.index.duplicated(keep='first')]
1000 loops, best of 3: 307 µs per loop

keep 引数をに変更すると、最後の要素を保持できることに注意してください'last'。

MultiIndexまた、この方法は（パウロの例):

>>> %timeit df1.groupby(level=df1.index.names).last()
1000 loops, best of 3: 771 µs per loop

>>> %timeit df1[~df1.index.duplicated(keep='last')]
1000 loops, best of 3: 365 µs per loop

重複したインデックスを持つパンダの行を削除する質問する

ベストアンサー1

おすすめ記事