De GIGA a GIGO

Hablemos de calidad de los datos bajo el síndrome GIGO

Es evidente que lo difícil a veces es poder contar esa situación descriptiva. No es la primera vez, que me encuentro que el problema es simplemente poder contar/enumerar bien la fiel y pura realidad. Algo que aprendemos en nuestra niñez y con los dedos de la mano, se vuelve en algo tan complicado y tan engañoso a veces que parece mentira.

Un problema de difícil solución pero que decidimos vivir con el, pues es mejor creer saber algo que no saber nada, cobra fuerza ese mejor 1 %  es mejor que un 100% de desconocimiento. Pero esto es muy peligroso. Link covid19-Informe

Fuente: 

Master para ser un Ninja de datos

Master para ser un Ninja de datos

Bueno si lo tuyo son los datos, te gustan las matemáticas y quieres sacar valor de las cosas y como suelen decir ser menos "engañado" asimetría de información. Te recomiendo hoy este master sin lugar a dudas. Los detalles como:
  • Lugar 
  • Matricula
  • Duración
  • Horario 
  • Precio
Todo en el siguiente enlace: https://www.master-data-scientist.com/#perfil

Frase

"La lógica te llevará del punto A al B. La imaginación te llevará a todas partes". (Albert Einstein)

Vectores transformación con gobierno del dato

Vectores para la transformación


Después de escuchar el webinar de CDO con Rafael Fernández Campos, muy recomendable si lo tuyo es, transformación digital, cambio cultural a través de gobierno del dato. Hoy he pensado en crear una pequeña infografía que he decidido pintar y tenerla a mano. Dejo aquí abajo el link al interesante webinar.

"Data Webinar: Transformación Data Driven: entre el éxito y el fracaso". Link


Crear una historia de transformación es el propósito. Rafael Fernández Campos

La evaluación de impacto en la práctica

La evaluación de impacto en la práctica


Desde el punto de vista de Gobierno del Dato, evaluar los datos tiene un impacto y un retorno. Hoy me resultaba de gran valor la siguiente noticia. Link

Cierta noticia, a dado lugar a nacer una pequeña mención en mi mural de linkedin. "Un 1% que cuesta 7 millones de dolares al año. Análisis de datos con retorno de inversión. Mi pregunta era, en tu empresa, ¿sabéis cuanto cuesta mantener los datos almacenados en función del número de accesos que tienen? Con un gobierno del dato responsable es necesario tener acceso a ciertos costes y ciertas mediciones para hacer análisis económicos. Es importante medir para mejorar. Monetiza tus datos." datagovernance hashtagtransformaciondigital hashtagdigitalizacion hashtaggobiernodedatos


Gobierno del dato con GPT2

Llevo trabajando con datos muchos años y ayudando como digo yo, a crear CDO's en diferentes compañías. A menudo me preguntan, qué es eso de Gobierno del Dato. ¿Cuál es el valor del dato? pregunta por cierto muy en boca de la 9ª reunión de CDO España de 2019 podéis ver este pdf. Por cierto, me uno a las felicitaciones en la entrega de premios.

En fin, vamos a coger algo de velocidad, volumen, variedad, ¿voy por 3 v no?


Sabermetría y Perceptrón

Remuestreo - Reordención y Submuestreo



La sabermetría se usa en el béisbol para determinar en base a los datos y mediciones que jugador, que jugadas, son mejores.  Así en plan resumen. Ojalá! en mesas redondas y reuniones de sala se supiese aunque fuese solo el concepto, pues aún, a día de hoy, se escuchan frases como a continuación. Necesitamos Big Data porque Excel se ha quedado pequeño, y seguidamente se escuchan preguntas tan simples como ¿qué es una wiki? y se hace el silencio porque nadie sabe que es eso y para que sirve.

Y aunque uno se pueda preguntar, ¿para qué necesito saber que es la sabermetría o una wiki?, si se va a hablar de datos, por lo menos algo de cultura básica no vendría mal, que hasta los entrenadores de béisbol saben más que mucha gente en este campo de datos.

Cultura y dinero! ese sería el resumen, aunque quizá sea dinero y cultura. Cual Don Quijote y sus molinos en esta era apabullante de datos, saber de datos es complejo. Me pregunto, a día de hoy en puestos de poder hay personas que no saben ¿qué es la Wikipedia? o por contra, ¿existen otras razones para no quererlo saber?.  La barrera y la resistencia cultural es enorme, y a veces se cruza con el no querer dejar que los datos sean accesibles por personas en una empresa, los datos se convierten en un verdadero cautivo. 

Ya en el lejano 2010, se representaba en la siguiente gráfica Kowalewski sobre el tratamiento que se debe dar a los datos para tratarlos con "cariño" en base a modelos Monte Carlo y modelos aleatorios.




Análisis de Procustes

Cortar cabeza estirar pies


Se conoce como análisis de Procrustes a la serie de  métodos estadísticos que aplican la teoría de grupos al análisis de conjuntos de datos, para poder compararlos y realizar inferencias de dichas comparaciones K-means, g-means. Forma parte del llamado análisis estadístico multivariable. Coeficiente de Jaccard / Tanimoto.




Procusto, por desgracia tenía una afición un poco menos saludable, hacia que las personas se ajustaran perfectamente al tamaño de su cama cortándoles o estirándoles las extremidades. Disponía de dos camas, una exageradamente grande y otra exageradamente pequeña. El termino se corresponde con situaciones en las que las simplificaciones no son tales simplificaciones. En resumen, el Sr Procusto categorizaba en dos grandes grupos.

Algoritmos con R y Python


El siguiente enlace lleva al pdf de la infografía que categoriza para R y Python los principales algoritmos de Machine Learning: link

Fuente: link

IDTipo de AnalisisDescripción
1Aprendizaje supervisado- Decision Tree
- Random Forest
- kNN
- Logistic Regression
2Aprendizaje no supervisado- Apriori algorithm
- k-means
- Hierarchical Clustering 
3Aprendizaje Reforzado- Markov Decision Process
- Q Learning
- EM (expectation-maximization) del tipo duro 

Rastreando y Rascando (Web Crawling Web Scraping) a Elitetorrent

Crawling and Scraping a lo Denis Diderot


Se conoce como L'esprit de l'escalier (el ingenio de la escalera) a la expresión francesa que describe el acto de pensar en una respuesta ingeniosa cuando es demasiado tarde para darla, en una reunión, en una entrevista, en una presentación puedes sufrirlo, un algoritmo puede ser mejorado hasta ser lo suficientemente voraz como para que te arregle un consumo de tiempo desenfrenado, hasta que tenga la respuesta correcta a su esprit d'escalier temporal.  


Fuente: Link

  • Evitar anuncios.
  • Crear un listado de las películas del día.
  • Entrar en todas las subpáginas de cada una de las películas de manera desatendida.
  • Crear un enlace a cada fichero de descarga de cada una de las películas.
  • Todo en tiempo record.

El código R sobre la última Web de Elitetorrent2 la Elitetorrent normal creo que ya no funciona.
library(rvest)
library(dplyr)
#rm(list=ls()) #Limpiar variables

#Fase 1 
############################################################
web_a_rascar <- read_html("https://www.elitetorrent2.net/")
etiqueta_a_buscar <- html_nodes(web_a_rascar,"article")
titulo_peliculas <- etiqueta_a_buscar[grep("movies", etiqueta_a_buscar)]
titulo_peliculas <- html_text(titulo_peliculas)
#titulo_peliculas

url_peliculas <- web_a_rascar %>% html_nodes("div > a")
columnas <- bind_rows(lapply(xml_attrs(url_peliculas), function(x) data.frame(as.list(x), stringsAsFactors=FALSE)))
direcciones_url <- columnas[1]
direcciones_limpias <- direcciones_url[grep("pelicula", direcciones_url$href), ]
numero_peliculas <- length(direcciones_limpias)
#direcciones_limpias

#Fase 2
############################################################
torrent <- c(1:numero_peliculas)
for (i in 1:numero_peliculas){
  web_a_rascar <- read_html(direcciones_limpias[i])
  url_peliculas <- web_a_rascar %>% html_nodes("td > a")
  columnas <- bind_rows(lapply(xml_attrs(url_peliculas), function(x) data.frame(as.list(x), stringsAsFactors=FALSE)))
  torrent[i] <- columnas[1,1]
}
M <- matrix(c(titulo_peliculas,direcciones_limpias, torrent[1:numero_peliculas]), ncol=3)
M #Creamos una matriz de 3 columnas con el titulo de la pelicula y los enlaces
Obteniendo algo parecido a:




Siempre he tenido mejores ideas cuando he estado asustado. Steven Spielberg 

Algoritmo voraz

El ADN viene de Montecarlo

Cuando cree el dominio de esta página siempre vi que la información de una empresa, sus datos, son una espiral caprichosa de ADN en composiciones de adenina y sus cuatro compañeras. De ahí salió semejante nombre ADNENT-"erprise".  Por desgracia, y como norma general, somos algo más desorganizados que el ADN en una empresa, aunque siempre hay variables dominantes.

Articulo representado de Xataka link para ciertas palabras

Machine Learning

Creo que el estudio de los datos por minería de datos y machine learning, ese aprendizaje profundo, es un PET sobre los dataset con las herramientas estadísticas disponibles y gráficos. Las herramientas en si, no significan mucho, cada minuto sale una, pero con cada evolución el estudio es más rápido y sencillo, y el diseño de redes sintéticas permitirán desentramar problemas estadísticos como nunca hemos visto. Métodos como montecarlo, análisis de sensibilidad, correlación de variables, ya son comunes.

Dentro de mi juego de constructores de gráficos tengo este de más arriba aplicado al articulo de Xataka representando ciertas palabras que aparecen en el.


Gif almacenado en un ADN de un organismo vivo.

Artículo

En el artículo de los amigos Xatakeros se puede leer como han conseguido almacenar en ADN una imagen, el caballito corriendo de arriba link. Esto no es algo nuevo, hace años que ya se lleva estudiando y Michio Kaku un tipo bastante listo, nos habla de ello. 

A donde quiero ir a parar, a parte de lo que comentan en el artículo sobre poder llevar nuestro propio ADN con nuestros documentos, creo que se podrá "teletransportar" ciertas moléculas de ADN de un recipiente=humano a otro, lo que es lo mismo, implantar información en otro ser, tener telepatía como también indica el Sr. Kaku. Llegamos a humanizar lo digital y a estudiar mediante la matemática y estadística para determinar el comportamiento, el maldito patrón.

Sin duda, nada nuevo que no se haya ya escrito en libros ciberpunk como Neuromante de William Gibson. Para muchos, esto seguirá siendo magia y una era posthumanista que jamás llegará y que solo está en los libros de una panda de frikis.

Cuidado en ser anti-visionarios, no vaya a ser que seamos como el Almirante William Leahy el cual en un alarde de expertise dijo: 
"La bomba -atómica- nunca funcionará, hablo como experto en explosivos".
De momento, redes sintéticas, información almacenada en ADN, olfatos electrónicos, etc. todo ello variables independientes en n situaciones.  

Algoritmo voraz

No olvidemos que un algoritmo voraz (también conocido como ávido, devorador o goloso o algoritmo codicioso) es aquel que, para resolver un determinado problema, sigue una heurística consistente en elegir la opción óptima en cada paso local con la esperanza de llegar a una solución general óptima. Volvemos a la estadística y modelos.

Me pregunto, ¿qué pasaría si genero n imágenes como la de arriba de n noticias y las paso por una red neuronal sintética para la detección de tipos de noticias entrenando un modelo?

Vas a jugar a las cartas o al ajedrez?


Como comentaba ayer, link, estuvimos presentes en el Meetup de TensorFlow. Con una agenda como esta de más abajo, era imposible pasarlo mal y no tomar ideas. Si hay que destacar algo negativo en estos eventos, es la premura de las presentaciones que pasan como si nada y te dejan ese sabor a querer algo más.

Agenda

  • Supercharge your Computer Vision Models with TensorFlow by Sergio Guadarrama, Research Software Engineer at Google
  • Using U-Nets with TensorFlow for 3D Medical Image Segmentation by Virilo Tejedor Aguilera, Project Manager at Colegio de Registradores
  • Transfer Learning - PreTrained Models for Improved Performance by Fernando Costantino
  • TensorFlow for Android by Jorge Barroso

Datos obesos - obesidad en datos

Humanizar términos
Puede ser una de las mejores maneras de explicar el mundo tecnológico, al mundo no tecnológico. Así pues, sin más circunloquio vamos allá.

Según la Wikipedia: La obesidad es una enfermedad crónica de origen multifactorial prevenible, la cual se caracteriza por acumulación excesiva de grasa de excesivos datos o hipertrofia general.

Infografias

Gráficos en Infografías + respondiendo a Metodologías

Como vengo diciendo en entradas anteriores, me falta tiempo para aderezar con perejil las noticias, pero me veo en la obligación, de indexar mi conocimiento, con lo cual, puesto en la balanza, prima la indexación al buen hacer.

No por ello, dejaré de regirme por un mínimo de agrado visual/literal que me permita hacer mi búsqueda referencial y etiquetado cognitivo. Sin más preámbulos, vayamos a:
1.- una buena página para crear infografías con una buena dosis de gráficos,
2.- un par de pildoras shell
3.- leyes de productividad
4.- preguntas y respuestas hipótesis sobre agile y bondades
5.- links amigos (muy recomendable el último sobre programación en línea)