• Hace tiempo (mentira! llevo 5 meses) llevo implementando y descrubiendo el mundo de djando un framework para web hecho en python. Django, luego de que se entiende (:P), es intuitivo y simple.

    Por otra parte, como estadístico que soy (que creo ser :D , por lo menos soy estudiante ya de magíster) ocupo mucho R, puesto que es un software útil, libre y muy sencillo de utilizar ya que, al igual que python, está orientado a objetos.

    Lo mejor es que encontré hace poco Rpy, que es , una iterface de Python con el lenguaje R. Es estar ocupando R bajo Python, es la misma sintaxis de R, solamente que anotando una r al comienzo de cada acción: r.funcion(objeto), por ejemplo r.summary(datos). Ejemplos están aquí

    La verdad todavía no lo ocupo, sin embargo creo que será útil en las ocasiones en que R no sea eficiente por temas de memoria. Ya saben, muchas iteraciones, muchos datos, mucho de MCMC. El que lo utilce comenta!

    Tags: , ,

  • Vagando por la web este día Domingo 21 de Septiembre me encuentro por ahí un post hablando sobre esta página (Combien de bises? trad: ¿Cuántos besos?) la cual hace participar a la gente que vive en Francia a que diga cuantos besos está obligado (socialmente) a dar al saludar en la zona en la que reside. La página va registrando los datos entrantes y los grafica en un mapa donde, por color, señala la cantidad de besos por zona. La siguiente imagen muestra como se representan los datos.

    Para divertirnos, nos ponemos en onda del blog. Apreciamos que existe una fuerte dependencia geográfica en la cantidad de besos al saludar. Lo anterior nos serviría de ayuda para ver donde nos sería útil ir cuando viajemos a Francia (:P), obviamente dependiendo del interés de cada uno. Además de avisarnos la forma de saludar para no dejar con la boca estirada a los oriundos.

    Tags: , , ,

  • En este post, pensando y viendo como horizonte el llegar a entender algún día todo lo que se refiera a estadística Bayesiana no paramétrica donde intervienen cosas como un Proceso Gaussiano o un Proceso de Dirichlet, veremos el Proceso del Restaurant Chino, o en inglés The Chinese Restaurant Process que es el primer peldaño, según se ve y he leído, para entender la idea de los procesos anteriormente mencionados.

    El dato freak: El motivo por el cual recibe el nombre es por los Restaurantes de comida China en San Francisco EE.UU parecieran que tienen infinita capacidad.

    La idea del Proceso del Restauran Chino (CRP de su sigla en inglés) es particionar (partición: una familia de conjuntos que son disjuntos entre si y que cubren todo el espacio en el cual se está trabajando) aleatoriamente los enteros positivos. El proceso estocástico que se describe como sigue:

    Imagínese un Restaurant (Chino!) que posee una cantidad infinita numerable de mesas etiquetadas por los número enteros positivos, id est, 1,2,3… En donde llegan clientes, los cuales escogen una mesa para sentarse de la siguiente manera:

    1. El primer cliente escoge siempre la primera mesa (mesa 1).
    2. El n-ésimo cliente que llega ocupa la primera mesa desocupada con probabilidad proporcional a un parámetro α del proceso y escoge la i-ésima mesa ocupada con probabilidad proporcional a mi, donde mi es el número de clientes ya sentados en la mesa i. Así:

       \Pr\{ \text{enesimo cliente ocupe una nueva mesa}  \} = \frac{\alpha}{n-1+\alpha},
       \Pr\{ \text{enesimo cliente ocupe la mesa}\, i  \} = \frac{m_i}{n-1+\alpha}

    En esta forma de representar el proceso, se ve de foma más clara que la realización del proceso deará como resultado un particionamiento aleatorio de los enteros positivos. Los conjuntos de la partición serán representados por las mesas y los elementos los clientes, cada cliente representa un número. El CRP es una distribución sobre las particiones de los números enteros positivos.

    El parámetro α es propio del proceso, si α es grande el proceso tenderá a generar más particiones, al contrario si α es pequeño ya que la probabilidad de crear una nueva partición será cada vez menor y rápidamente esta probabilidad tenderá a cero. Otra cosa que se debe notar es que la probabilidad a que un cliente tome una mesa en particular será proporcional a la cantidad de clientes en tal mesa, esto hace que el proceso genere pocas mesas con muchos clientes y muchas mesas con pocos clientes.

    Notemos que si acotamos el número de clientes, por ejemplo a M, el proceso podrá generar hasta M conjuntos. De esta forma el proceso servirá para (imaginando que observamos M datos) representar la incertidumbre sobre el número, la forma y estructura de componentes en un Modelo de Mezcla por ejemplo, como lo veremos más adelante cuando veamos el Proceso de Dirichlet y la Mezcla del Proceso de Dirichlet.

  • Esta paradoja la encontré en la miscelánea de un libro (en vez de estar leyendo los capítulos digo yo) y la encontré entretenida. En inglés The Exchange Paradox y se debe a Chirstensen & Utts (1992).

    El juego, que da paso a la paradoja, consiste en que un “juez” coloca $n y $2n, cantidades desconocidas para los dos jugadores, en envoltorios (sobres, cajas o tupperwares) tal que no se distinga cual es cual. Ahora tú y tu contrincante seleccionan cada uno de forma aleatoria un envoltorio distinto al otro. Al abrir tu sobre te encuentras con $x y el juez te pregunta a ti si deseas que intercambien los envoltorios. Tú, como buen estadístico que eres, piensas que si intercambias, obtendrás x/2 o 2x con igual probabilidad lo que hace que el valor esperado del intercambio sea igual a (1/2)(x/2) + (1/2)(2x) = 5x/4, lo que es mayor que x. Así que tu aceptas el intermcambio.

    La paradoja es que tu contrincante piensa de la misma forma haciendo el mismo cálculo. Entonces ¿Para quién es mas ventajoso el intercambio? ¿Ah?