XML パッケージを使用して HTML テーブルを R データ フレームにスクレイピングする 質問する

XML パッケージを使用して HTML テーブルを R データ フレームにスクレイピングする 質問する

XML パッケージを使用して HTML テーブルをスクレイピングするにはどうすればよいですか?

例えば、このWikipediaのページを見てください。ブラジルサッカーチームこれを R で読み取り、「ブラジルが FIFA 公認チームと対戦したすべての試合のリスト」テーブルをデータフレームとして取得したいと思います。どうすればいいでしょうか?

ベストアンサー1

…またはもっと短くしてみましょう:

library(XML)
library(RCurl)
library(rlist)
theurl <- getURL("https://en.wikipedia.org/wiki/Brazil_national_football_team",.opts = list(ssl.verifypeer = FALSE) )
tables <- readHTMLTable(theurl)
tables <- list.clean(tables, fun = is.null, recursive = FALSE)
n.rows <- unlist(lapply(tables, function(t) dim(t)[1]))

選択されたテーブルはページ上で最も長いテーブルです

tables[[which.max(n.rows)]]

おすすめ記事