Pensar con talento 2

Tirar la piedra, esconder la mano

En mi anterior entrada escribía sobre pensar con talento, un post en aras de alertar sobre cosas que están mal, se hacen mal, se usan mal y la falta de.... "no de talento", que talento hay mucho, si no falta de "pensar con talento", o simplemente Pensar en que se va el tiempo y el esfuerzo. 
En resumen, tirar la piedra diciendo que muchas cosas se hacen mal y no decir como se puede hacer mejor (esconder la mano) criticar por criticar (Todo es fácilmente criticable - pero las soluciones no son fáciles) y de eso va este post, no de simplemente criticar, si no de dar alguna solución o algo que sirva.


Primero Robot, luego Binario

La verdad es que disponer de herramientas que no hacen más que perder el tiempo a las personas, y personas, que defiendan, acepten, compren e instalen esas herramientas es un atraso que cuesta millones a las empresas en licencias basura. 
Ambas cosas hay que erradicarlas jubilarlas, herramientas y personas que no ven el atraso que generan.

Robot, es una persona, y Binario otra, y esto es así por que es mi realidad. Con Robot vi un ejemplo para crear un ejercicio de muestra más pequeña significativa en base a una variable, y con Binario hablé sobre como esta muestra puede ser útil para muchas cosas.


Frame del anterior vídeo, construcción digital de neuronas en 3D casualmente similar a las que pinto sin ver Ramón y Cajal

R - Muestra más pequeña que sea significativa

Entre medías de este post, se coló el vídeo que lo gobierna, donde un algoritmo decide en base a lo que ve, que es lo que representa, un ejemplo de "learning". En fin, algoritmo de decisión y aprendizaje. Tenemos una población de 3482 registros y queremos coger una muestra más pequeña que sea significativa en función a la variable "Usa_Tabla" siendo el fichero de datos: datos_muestra_representativa.dat
Para los conocedores de procesos tipo ETL y que quieran más detalle sobre el fichero, el USA_TABLA representa si un workflow en concreto, usa una tabla = 1 o no usa una tabla = 0 en función de los diferentes grupos de aplicaciones, algo así como puede verse en la siguiente captura.
Este valor binario de 1 ó 0 podría bien representar "Gano dinero" o "Pierdo dinero" tocar el bolsillo o monetizar un ejemplo siempre llama más la atención.

##Fichero de entrada llamado resultado:
setwd("C:/Est/Nucleo/dat/")
resultado<-read.table("datos_muestra_representativa.dat",header=TRUE)

## Cogemos una submuestra del anterior fichero de 1000 registros:
PRUEBA<-resultado[sample(nrow(resultado), size = 1000, replace = FALSE),]

## Calculamos la media y la varianza de la variable USA_TABLA 
(xbar=mean(PRUEBA$USA_TABLA))
(desvt=sd(PRUEBA$USA_TABLA))

### la media nos sale, aproximadamente, 0.2 y la varianza nos sale, aproximadamente, 0.43.
## Sabemos que una Binomial(n,p) se comporta de manera similar a una N(n*p, sqrt(n*p*q)) donde p es la probabilidad de
## acierto y q es la probabilidad de fracaso.
## Por tanto, nuestra muestra se asimilaría la siguiente distribución normal (equivalente a la Binomial):
x<-rnorm(3482,mean=xbar,sd=desvt)

# la ordenamos,
x=sort(x)

# calculamos su media y cuasidesviacion tipicas, para realizar la corrección Yates.
(xbar=mean(x))
(desvt=sd(x))
datosNormalizados=(x-xbar)/desvt

### comparamos con una T de Student con dos grados de libertad (coloreada en magenta discontinua)
ft=function(x){pt(x,df=2)}

### comparamos con una función normal
plot(pnorm,from=-5,to=5,col="green",lwd=3)
plot(ft,from=-5,to=5,col="pink",lwd=3,add=TRUE,lty=2)

### pintamos nuestros datos y obtenemos la similitud con las funciones nombradas anteriormente
ECDF=ecdf(datosNormalizados)
plot(ECDF,col="blue",lwd=1,xlab="PRUEBA$USA_TABLA",ylab="",add=TRUE)

            
            Muestra para 100 casos, los puntos azules coinciden muy poco con la línea roja.


            Muestra para 200 casos, los puntos azules empiezan a coincidir más con la línea roja.

            
            Muestra para 400 casos, los puntos azules coinciden enormemente con la línea roja.

            
            Para 800 casos los puntos azules coinciden plenamente con la línea roja. Una muestra de 800 es más efectiva.

Frase

La percepción y la creatividad están conectadas muy íntimamente. Miguel Ángel. La computación empezó como un ejercicio de diseño de máquinas inteligentes.

0 comentarios: