pandas - 別の列によってインデックス付けされた特定の列の最新の値を取得する（別の列によってインデックス付けされた特定の列の最大値を取得する）質問する

Question

「obj_id」の数が非常に多い場合は、データフレーム全体を並べ替えてから重複を削除して最後の要素を取得する必要があります。

sorted = df.sort_index(by='data_date')
result = sorted.drop_duplicates('obj_id', keep='last').values

これは、キーの数が多い場合に遅くなるカスタム agg 関数を実行する必要がないため、より高速になるはずです (申し訳ありませんが、テストしていません)。データフレーム全体を並べ替える方が悪いと思われるかもしれませんが、実際には、Python では並べ替えは高速で、ネイティブループは低速です。

Answer 1

「obj_id」の数が非常に多い場合は、データフレーム全体を並べ替えてから重複を削除して最後の要素を取得する必要があります。

sorted = df.sort_index(by='data_date')
result = sorted.drop_duplicates('obj_id', keep='last').values

これは、キーの数が多い場合に遅くなるカスタム agg 関数を実行する必要がないため、より高速になるはずです (申し訳ありませんが、テストしていません)。データフレーム全体を並べ替える方が悪いと思われるかもしれませんが、実際には、Python では並べ替えは高速で、ネイティブループは低速です。

おすすめ記事