Chcę ściągnąć dane ze strony IMDB.
Link wyglada tak:
https://www.imdb.com/search/title/?title_type=feature&release_date=,2018-12-31&count=250&start=1
count - ile filmów pojawi się na stronie (wartości to 50, 100, 250)
start - od którego numeru ma się wyświetlić
Czyli podstawowy link podany wyżej wyświetla listę od 1. do 250.
Jak napisać pętlę, która będzie aktualizowała wartość start o 250 (251, 501, 751, itd)
Napisałem coś takiego:
#instalacja i ladowanie rverst
install.packages("rvest")
install.packages("RSelenium")
library(rvest)
library(RSelenium)
#otwarcie przegladarki (w moim przypadku Firefox)
rD <- rsDriver(browser=c("firefox"))
remDr <- rD[["client"]]
counter=250
for (j in 1){
j<-j+counter
#otworzenie strony w przegladarce
newURL<-"https://www.imdb.com/search/title/?title_type=feature&release_date=,2018-12-31&count=250&start="
startNumberURL<-paste0(newURL,j)
remDr$navigate(startNumberURL)
#odczytanie kodu strony
strona_int<-read_html(startNumberURL)
#odczytanie sekcji z rankingiem
rank_data<-html_nodes(strona_int,'.text-primary')
#konwersja rankingu na text
rank_data<-html_text(rank_data)
#konwersja na numeric
rank_data<-as.numeric(rank_data)
}
#zamkniecie przegladarki
remDr$close()
#zatrzymanie serwera
rD[["server"]]$stop()
Nie mam pojęcia jak to napisać. Będę bardzo wdzięczny za pomoc.