dplyr left_join より小さい、より大きい条件質問する

Question

以下の元の回答は、別の回答で指摘されているように、古くなっています。の新しいバージョンではdplyr、次のようにするだけです。(この構文は、を使用するデータベースバックエンドでも機能することに注意してくださいdbplyr。)

fdata %>% 
left_join(sdata,
          join_by(fyear >= byear, fyear < eyear))

元の回答が作成されたとき、を使用して不等結合を実行する簡単な方法はありませんでしたdplyr。

元の回答

を使用してくださいfilter。（ただし、この回答ではない正しいを生成しますLEFT JOINが、MWE は代わりにで正しい結果を返しますINNER JOIN。

マージする対象がない状態で 2 つのテーブルをマージするように要求された場合、パッケージdplyrは満足しません。そのため、以下では、この目的のために両方のテーブルにダミー変数を作成し、フィルタリングしてからドロップしますdummy。

fdata %>% 
    mutate(dummy=TRUE) %>%
    left_join(sdata %>% mutate(dummy=TRUE)) %>%
    filter(fyear >= byear, fyear < eyear) %>%
    select(-dummy)

また、これを PostgreSQL などで実行すると、dummy次の 2 つのクエリの説明で示されるように、クエリオプティマイザーが変数を認識することに注意してください。

> fdata %>% 
+     mutate(dummy=TRUE) %>%
+     left_join(sdata %>% mutate(dummy=TRUE)) %>%
+     filter(fyear >= byear, fyear < eyear) %>%
+     select(-dummy) %>%
+     explain()
Joining by: "dummy"
<SQL>
SELECT "id" AS "id", "fyear" AS "fyear", "byear" AS "byear", "eyear" AS "eyear", "val" AS "val"
FROM (SELECT * FROM (SELECT "id", "fyear", TRUE AS "dummy"
FROM "fdata") AS "zzz136"

LEFT JOIN 

(SELECT "byear", "eyear", "val", TRUE AS "dummy"
FROM "sdata") AS "zzz137"

USING ("dummy")) AS "zzz138"
WHERE "fyear" >= "byear" AND "fyear" < "eyear"


<PLAN>
Nested Loop  (cost=0.00..50886.88 rows=322722 width=40)
  Join Filter: ((fdata.fyear >= sdata.byear) AND (fdata.fyear < sdata.eyear))
  ->  Seq Scan on fdata  (cost=0.00..28.50 rows=1850 width=16)
  ->  Materialize  (cost=0.00..33.55 rows=1570 width=24)
        ->  Seq Scan on sdata  (cost=0.00..25.70 rows=1570 width=24)

SQLでよりきれいに実行するとその通り同じ結果:

> tbl(pg, sql("
+     SELECT *
+     FROM fdata 
+     LEFT JOIN sdata 
+     ON fyear >= byear AND fyear < eyear")) %>%
+     explain()
<SQL>
SELECT "id", "fyear", "byear", "eyear", "val"
FROM (
    SELECT *
    FROM fdata 
    LEFT JOIN sdata 
    ON fyear >= byear AND fyear < eyear) AS "zzz140"


<PLAN>
Nested Loop Left Join  (cost=0.00..50886.88 rows=322722 width=40)
  Join Filter: ((fdata.fyear >= sdata.byear) AND (fdata.fyear < sdata.eyear))
  ->  Seq Scan on fdata  (cost=0.00..28.50 rows=1850 width=16)
  ->  Materialize  (cost=0.00..33.55 rows=1570 width=24)
        ->  Seq Scan on sdata  (cost=0.00..25.70 rows=1570 width=24)

Answer 1