Rastreando y Rascando (Web Crawling Web Scraping) a Elitetorrent

Crawling and Scraping a lo Denis Diderot


Se conoce como L'esprit de l'escalier (el ingenio de la escalera) a la expresión francesa que describe el acto de pensar en una respuesta ingeniosa cuando es demasiado tarde para darla, en una reunión, en una entrevista, en una presentación puedes sufrirlo, un algoritmo puede ser mejorado hasta ser lo suficientemente voraz como para que te arregle un consumo de tiempo desenfrenado, hasta que tenga la respuesta correcta a su esprit d'escalier temporal.  


Fuente: Link

  • Evitar anuncios.
  • Crear un listado de las películas del día.
  • Entrar en todas las subpáginas de cada una de las películas de manera desatendida.
  • Crear un enlace a cada fichero de descarga de cada una de las películas.
  • Todo en tiempo record.

El código R sobre la última Web de Elitetorrent2 la Elitetorrent normal creo que ya no funciona.
library(rvest)
library(dplyr)
#rm(list=ls()) #Limpiar variables

#Fase 1 
############################################################
web_a_rascar <- read_html("https://www.elitetorrent2.net/")
etiqueta_a_buscar <- html_nodes(web_a_rascar,"article")
titulo_peliculas <- etiqueta_a_buscar[grep("movies", etiqueta_a_buscar)]
titulo_peliculas <- html_text(titulo_peliculas)
#titulo_peliculas

url_peliculas <- web_a_rascar %>% html_nodes("div > a")
columnas <- bind_rows(lapply(xml_attrs(url_peliculas), function(x) data.frame(as.list(x), stringsAsFactors=FALSE)))
direcciones_url <- columnas[1]
direcciones_limpias <- direcciones_url[grep("pelicula", direcciones_url$href), ]
numero_peliculas <- length(direcciones_limpias)
#direcciones_limpias

#Fase 2
############################################################
torrent <- c(1:numero_peliculas)
for (i in 1:numero_peliculas){
  web_a_rascar <- read_html(direcciones_limpias[i])
  url_peliculas <- web_a_rascar %>% html_nodes("td > a")
  columnas <- bind_rows(lapply(xml_attrs(url_peliculas), function(x) data.frame(as.list(x), stringsAsFactors=FALSE)))
  torrent[i] <- columnas[1,1]
}
M <- matrix(c(titulo_peliculas,direcciones_limpias, torrent[1:numero_peliculas]), ncol=3)
M #Creamos una matriz de 3 columnas con el titulo de la pelicula y los enlaces
Obteniendo algo parecido a:




Siempre he tenido mejores ideas cuando he estado asustado. Steven Spielberg 

0 comentarios: