XML パッケージを使用して HTML テーブルをスクレイピングするにはどうすればよいですか?
例えば、このWikipediaのページを見てください。ブラジルサッカーチームこれを R で読み取り、「ブラジルが FIFA 公認チームと対戦したすべての試合のリスト」テーブルをデータフレームとして取得したいと思います。どうすればいいでしょうか?
ベストアンサー1
…またはもっと短くしてみましょう:
library(XML)
library(RCurl)
library(rlist)
theurl <- getURL("https://en.wikipedia.org/wiki/Brazil_national_football_team",.opts = list(ssl.verifypeer = FALSE) )
tables <- readHTMLTable(theurl)
tables <- list.clean(tables, fun = is.null, recursive = FALSE)
n.rows <- unlist(lapply(tables, function(t) dim(t)[1]))
選択されたテーブルはページ上で最も長いテーブルです
tables[[which.max(n.rows)]]