lunes, 4 de febrero de 2013

Usuarios de Internet en Argentina por Provincia a Diciembre de 2012

¿Cuántos usuarios de Internet hay en Argentina?
De acuerdo a los datos de Comscore de diciembre de 2012, en la Argentina hay 19.196.652 usuarios de Internet. Por su parte el Banco Mundial informaba, a finales de 2011, que en Argentina había 19.446.326 usuarios de Internet. Los datos del Banco Mundial indican que hoy habría más usuarios de Internet que los que Comscore informa. Sin embargo, en este post me manejo con la información de Comscore porque es el dato más actualizado.

Evolución de la cantidad de usuarios de Internet en algunos países seleccionados
La cantidad de usuarios de Internet en Argentina continúa creciendo y no parece, de momento, estar llegando a una meseta. En el gráfico se exhibe la evolución de la cantidad de usuarios de Internet respecto al total de la población para Argentina, Brasil, Colombia, Chile, México y Uruguay entre los años 1991 y 2011. Los datos corresponden al Banco Mundial.
Usuarios de Internet por cada 100 habitantes. Fuente: World Bank.

De acuerdo a estos datos, en el 2011 el 48% de la población argentina usaba Internet. De los países seleccionados Argentina se encuentra tercera en penetración de Internet. En primer lugar está Chile con el 53% y luego Uruguay con el 51%.

Usuarios de Internet por Provincias
Con la misma metodología utilizada anteriormente estimé la cantidad de usuarios de Internet por provincia para la Argentina a diciembre de 2012. La tabla expuesta más abajo muestra la cantidad de usuarios de Internet por provincia de acuerdo a la estimación realizada con a) los datos de cookies registradas por Google por provincia y b) de acuerdo al total de conexiones (residenciales y de organizaciones) registradas por el INDEC. El total de usuarios en ambas estimaciones son los 19.196.652 usuarios de Internet indicados por Comscore. Así, por ejemplo, en Mendoza habría entre 636.898 y 685.449 usuarios de Internet, de acuerdo a una y otra estimación.

Como se puede observar las estimaciones para algunas provincias difieren enormemente. Por ejemplo, la estimación con los datos de Google da que San Juan tendría 26.599 usuarios de Internet. En cambio la estimación con los datos del INDEC arroja un total de 209.800 usuarios. Esto se puede deber a que en San Juan habrían muchas conexiones pero pocos usuarios. Una de las razones de las diferencias entre las dos estimaciones reside en que en Argentina no es posible –debido a como se administraros los números de IP- saber con exactitud la ubicación geográfica del origen de la cookie. Por eso los datos deben tomarse como referencias. Así también ocurre que Ciudad de Buenos Aires tiene más usuarios de Internet que población.
Teniendo presente estas observaciones, un dato relevante es que entre el 80% y el 91% de los usuarios de Internet de Argentina están ubicados en Ciudad de Buenos Aires (~34%), Provincia de Buenos Aires (~30%), Santa Fe (~9%), Córdoba (~9%) y Mendoza (~3%).

Penetración de Internet por Provincia
El mapa de calor muestra la penetración de Internet por provincia. El valor tomado para obtener la penetración de Internet  surge del cociente entre el promedio simple de usuarios de Internet de las dos estimaciones y la población de cada provincia actualizada de acuerdo al crecimiento poblacional de los últimos 10 años.
Como se puede observar el único dato que arroja una incongruencia es la penetración de Internet en la Ciudad de Buenos Aires. En ese caso el valor (225%) supera al total de la población de la Ciudad. Sin embargo, si se toma a la Ciudad de Buenos Aires en conjunto con la Provincia de Buenos Aires la penetración de Internet en Ciudad+Provincia se encuentra entre el 63% y el 67%.
Ciudad de Buenos Aires, Tierra del Fuego, Santa Fe y Córdoba son las zonas con mayor penetración de Internet.  El resto de las provincias se encuentran por debajo del 48% de penetración de Internet observado en la Argentina como un todo.
Penetración de Internet por Provincia - Estimación a Diciembre de 2012.


Notas:
La penetración de Internet estimada en este post no es comparable con que realicé en octubre de 2011. En aquella oportunidad tomé la estimación que Comscore hace para la población de Internet mayor a 15 años. En cambio en este caso tomé el dato total, incluidos aquellos que se conectan desde cybercafés y locutorios.

jueves, 24 de enero de 2013

Visualización de Datos: Estaciones de Servicio en la Carretera Austral de Chile

La imagen de arriba muestra un mapa de las estaciones de servicio COPEC que se pueden encontrar en la carretera Austral en Chile. Algunos aspectos de esta visualización me resultan fallidos. El mapa tiene como título "Estaciones de Servicio COPEC Carretera Austral", sin embargo el subtítulo "Horarios de Atención" hace foco en otra variable de la visualización. El subtítulo nos indica en qué horarios vamos a encontrar abiertas las estaciones de servicio, pero la visualización da más información que la que el subtítulo indica. Quizás hubiera sido más adecuado reubicar el "Horarios de Atención" previo a la franja horaria descripta en cada una de las estaciones. Incluso no hace falta repetir "Horario de Atención" en todas las estaciones, se podría poner en la primera y el resto se entiende que hace referencia a lo mismo. Así se aliviaría la carga de información visual. Otra alternativa sería sólo ponerlo en el primer caso y luego usar alguna abreviatura o usar otra expresión como, por ejemplo, Abierto de 8 a 23hrs. 

Además, la visualización da una representación falsa de las dimensiones y ubicaciones de los pueblos. Todos los trayectos tienen la misma distancia visual sin embargo difieren en los kilómetros necesarios para ir de un pueblo a otro. Se podría pensar que en pos de la simplicidad quien diseño la visualización prefirió tomar todas las distancias visuales como equivalentes y mostrar con el dato numérico los kilómetros entre estación y estación. Sin embargo, agregó -arriba a la izquierda- una orientación cartesiana que indica hacia dónde está el norte. Lo cual tampoco es del todo correcto. Los pueblos no están ubicados sobre una línea recta y para llegar a algunos de ellos hay que desviarse hacia el Este o el Oeste. Como se puede ver en el mapa que sigue, el camino no es lineal, hay varias bifurcaciones que nos llevan o no a los pueblos señalados.
Pueblos con estaciones de servicio COPEC en la Patagonia Chilena

Aún así, la visualización tiene gran utilidad para averiguar rápidamente a cuántos kilómetros nos encontramos de la próxima estación y en qué horarios atiende. Con esos datos uno puede calcular si, por ejemplo, partiendo de Puerto Cisnes con el tanque de nafta con una cierta cantidad de litros podrá llegar a la próxima estación sin problemas de abastecimiento. Al incluirse los teléfonos también podemos averiguar con un llamado otros datos adicionales que pudiésemos requerir (por ejemplo, si tiene gas oil o hacen reparaciones de cubiertas).

Mapas en los Monolitos del Automóvil Club Argentino
Las estaciones de servicio asociadas al ACA suelen tener un monolito indicando que la estación forma parte del servicio del Automóvil Club. Los monolitos de ACA suelen incluir un mapa que, al igual que en la visualización de COPEC, nos indica dónde nos encontramos. Pero en este caso el mapa prioriza la información más cercana a donde uno se encuentra. Si bien no todos los monolitos del ACA son iguales, abajo se pueden ver dos ejemplos de esto último. El monolito del ACA del Balneario de Necochea incluye un mapa a escala de las calles principales y la ubicación de las diferentes sedes del ACA en la ciudad. También se señala la ubicación del mar y los espacios verdes. El mapa está a escala y sólo sirve para obtener información y tomar decisiones sobre una extensión muy acotada de la ciudad.
En el caso del ACA ubicado en Belgrano en la Ciudad de Buenos Aires, el mapa da información sobre las principales avenidas y líneas de tren, pero no de los espacios verdes o el Río de la Plata.
En ambos casos la visualización es más representativa de las distancias y ubicaciones que la de COPEC. Sin embargo el mapa está acotado a un radio mucho más cercano a donde uno está y, si bien no son del todo comparables, la visualización en este caso brinda menos información útil para reabastecerse de combustible.

martes, 25 de diciembre de 2012

Visualización de Datos: Trabajo Estacional en Nueva Zelanda

La imagen de arriba es un folleto orientado a aquellos que van a visitar Nueva Zelanda para viajar y trabajar.   Una parte importante de las exportaciones de Nueva Zelanda son frutas, vegetales y vino. La producción de estas materias primas requiere plantar, podar, cosechar, seleccionar y empacar la fruta. Todas estas son tareas sencillas que se pueden aprender en poco tiempo por casi cualquier persona. El mismo folleto dice "no previous experience is needed and you will get on-the-job training". Además, estos trabajos son estacionales, por ejemplo, la vendimia requiere cosechadores durante un momento y período específico de tiempo. En el período de cosecha la demanda de trabajo crece. En esos momentos se requieren de trabajadores que estén dispuestos, al salario vigente, a tomar esos empleos.
El folleto incluye un gráfico con un mapa de calor con la demanda de trabajo para algunas ciudades/zonas seleccionadas. Cada fila de la columna de color verde es una ciudad de Nueva Zelanda. Y las 12 columnas siguientes son los meses del año. Cada celda del gráfico puede tener 1 de 4 colores posibles. El color más claro significa que la demanda de trabajo estacional es baja (entre 1 y 1.000 empleos). Es decir, para esos meses se requieren entre 1 y 1.000 trabajadores. El amarillo es para la demanda media (de 1.000 a 3.000 empleos), el naranja para la demanda alta (3.000 a 6.000) y el rojo para la demanda extrema (más de 6.000 empleos). Así, por ejemplo, se puede visualizar con facilidad que la zona de Bay of Plenty necesita una gran cantidad de trabajadores durante los meses de abril a agosto o que en Nelson la demanda de trabajo es alta entre febrero y abril.
Al costado derecho del gráfico se encuentra un mapa donde se señala la ubicación de las ciudades y, en una imagen pequeña, se muestra qué tipo de verdura o fruta se cosecha en cada zona. De esa manera el gráfico da toda la información necesaria para facilitar la decisión de hacia dónde movilizarse para buscar trabajo.

La elaboración del gráfico es compleja, cuando se lo realiza profesionalmente. Requiere todo un trabajo estadístico para desestacionalizar las series de demanda de trabajo y determinar los desvíos estacionales por sobre o debajo de la media. Lo interesante es que el gráfico puede ser leído con facilidad sin necesidad de incluir números o líneas, los colores bastan para detectar dónde está la demanda de trabajo. Si, por ejemplo, se hubiese hecho con líneas, el gráfico se hubiera tornado, como se puede ver abajo, engorroso y difícil de leer. Las líneas se pisan y no se logran distinguir, por eso me parece un acierto la decisión elegida por quien diseño el folleto. Quizás un aspecto que se puede mejorar son las imágenes pequeñas y difíciles de identificar que aparecen junto a las ciudades en el mapa porque no se alcanza a ver si es una uva o un kiwi.
Ejemplo de cómo hubiera quedado el gráfico si se hubiera hecho con líneas.


miércoles, 21 de noviembre de 2012

8N: Análisis de las conversaciones en Twitter

Evolución temporal y comparación 8N versus 13S

En el 8N se generaron más tuits que durante los cacerolazos del 13S. Entre los días 12 y 14 de septiembre de 2012 se escribieron más de 60.000 tuits sobre los cacerolazos.* Mientras que entre los días 7 y 9 de noviembre se escribieron más de 95.000 tuits, un 58% más de tuits que en el cacerolazo anterior. También hubo más usuarios activos, durante el 8N hubo cerca de 27.700 usuarios de Twitter hablando del tema, un 11% más que durante el 13S.
En el gráfico se puede ver la evolución de la cantidad de tuits el día previo a los cacerolazos, el día del cacerolazo y el día siguiente a los cacerolazos de septiembre y de noviembre. Los segmentos de tiempo son cortes cada 10 minutos. Los cacerolazos del 8N generaron más tuits durante más tiempo que los del 13S. Desde la mañana temprano los usuarios de Twitter hablaron del tema. En cambio durante el 13S la reacción fue más espontánea.
Si definimos una conversación como todos aquellos tuits que incluyen al menos una mención a algún otro usuario, con el limitante de que si el usuario se menciona a sí mismo o no menciona a nadie no es una conversación. Entonces podemos afirmar que el 8 de Noviembre hubo un menor nivel de conversaciones. Durante los días 12, 13 y 14 de Septiembre, el 62% de los tuits sobre los cacerolazos fueron conversaciones. Mientras que durante los días 7, 8 y 9 de Noviembre sólo el 18% de los tuits fueron conversaciones. ¿Por qué bajó el nivel de conversaciones cuando subió la cantidad de tuits?

(Pasar por encima el mouse. No hace falta hacer clic. Tarda un ratito en cargar).

La dinámica de conversaciones entre los usuarios en el 8N fue diferente a la del 13S. En aquella ocasión hubo más usuarios que estuvieron en contra del cacerolazo. Y eso es algo que motivó conversaciones entre los que atacaban y defendían la marcha. En cambio, en el 8N prácticamente no hubo usuarios que se hayan expresado agresivamente con los que caceroleaban. En el gráfico de arriba se puede ver la interacción entre los usuarios durante el 8 de noviembre. Están señalados algunos usuarios muy populares. Como se puede apreciar, los nodos que en el 13S estaban en contra del cacerolazo, en esta oportunidad estuvieron ausentes. Sólo D'Elia provocó algunas reacciones, pero en general los defensores del Gobierno Nacional no aparecieron.

Temáticas mencionadas

A diferencia del post del 13S, en donde armé el grafo de conversaciones entre usuarios, en esta oportunidad cambié el tratamiento de los datos. Lo que hice fue armar un grafo donde se vinculan usuarios y conceptos tratados. Si, por ejemplo, un usuario hizo un tuit donde habla de la corrupción, entonces se crea un vínculo entre ese concepto y el usuario. De esta manera, el grafo permite visualizar qué temas trataron cada cluster de usuarios.
En en la imagen de arriba se observa el grafo completo. Para determinar los clusters utilicé el algoritmo de Blondel et al, porque me resultaba más cómodo para manipular los datos que algoritmo de Newman que utilicé en el post anterior. Los clusters están diferenciados por colores.
El cluster más grande fue el de aquellos que hicieron reclamos al Gobierno. En entre los pedidos más tuiteados estuvo la inseguridad y el deseo de paz y justicia. Se habló de poner fin a la corrupción, de que se quiere vivir un país de verdad, no un relato. Se dijo que el Gobierno es soberbio y que se gasta el dinero en el Fútbol para Todos. La inflación falsa que subestima la cantidad de pobres, los trenes en mal estado y la arrogancia de los funcionarios también despertaron enojos. El tamaño de este cluster es de más de 3.500 usuarios.
Otro grupo hizo referencia a los cacerolazos en el resto del mundo. Sidney, Roma, Barcelona y Londres estuvieron entre las ciudades más mencionadas. Este mismo grupo de usuarios fueron lo que hablaron de Anibal Fernandez y su incapacidad para comprender el mensaje de la protesta. También retuitearon mucho a @Nikgaturro que dijo: "Fuerte el cacerolazo, eh. ¿Dónde está la gran arquitecta egipcia, le descendiente de Dios y la abogada más exitosa del mundo?”. El tamaño de este cluster es de más de 2.400 usuarios.
Más allá del cacerolazo y el ruido de las cacerolas, la temática más mencionada fue el “Miralo en vivo” a través de Youtube que promocionó Infobae. Más de 1.700 usuarios hablaron de la posibilidad de ver online lo que estaba pasando.
Una advertencia: en todos los casos el tamaño es en referencia a la cantidad de usuarios que conversaron sobre el tema, en donde "conversaron" es de acuerdo a la definición más arriba enunciada. La cantidad de usuarios que hablaron del tema es mucho mayor.
Las impresionantes imágenes del Obelisco, la Plaza de Mayo y la 9 de Julio fueron la representación más increíble de la expresión popular, por usar los términos con los que se expresaron los manifestantes. Jorge Rial hizo un tuit que decía "Último pantallazo de la marcha" e incluía una foto. Ese tuit tuvo más de 2.400 retuits.
En Twitter lo que es ingenioso, gracioso o sarcástico tiene mucha capacidad para generar grandes audiencias. En esa línea, los carteles que llevaron los manifestantes a la marcha generaron muchos comentarios y risas. Entre los que más risas generaron se destacó el que decía: “Yo la vote, pero siempre fui un pelotudo eligiendo minas”.
Por otra parte estuvieron los que protestaron en Santa Fe, Olivos, en Tucumán, en Mendoza y en las diferentes plazas del país. Este grupo habló sobre la convocación a la marcha mediante las redes sociales. Muchos usuarios se indignaron porque los tratan de golpistas. Ese mismo grupo habló del espacio aéreo que Cristina Kirchner impidió utilizar para que los helicópteros no pudieran sacar fotos de la multitud.
El cacerolazo virtual, así lo denominaron, se generó a partir de una serie de tuits que contenían la onomatopeya PLAC PLAC PLAC. También se hizo mención a la oposición y la necesidad de construir una alternativa. Fue este mismo grupo el que se enojó con que el Gobierno designó a Oyarbide para averiguar qué pasó en el corte de luz del 7 de noviembre.
Cinthia, la periodista de 678 que era incisiva en sus preguntas y falaz en sus argumentaciones -lo último lo afirmo yo-, despertó menciones dentro del mismo grupo de usuarios que hablaron de la agresión al periodista de C5N. Posiblemente esto se deba a que este grupo estaba pendiente de lo que pasaba en la televisión.

Una porción menor de usuario replicaron las palabras de Mariotto donde afirmaba que “El amor vence al odio y los votos a las cacerolas”. Ese mismo grupo, de aproximadamente 1.500 usuarios, habló de los que protestaban como caceroludos y también dijeron que las protestas del 2011 fueron las legítimas.

Usuarios más influyentes durante el 8N

Los trending topic se generan a partir de lo más que hablan los usuarios de Twitter en cada momento. El algoritmo de Twitter busca aquellos temas que se vuelven muy populares en un período de tiempo muy corto. Twitter ofrece, además, la posibilidad de comprar publicidad adquiriendo un trending topic patrocinado. Para los cacerolazos del 8N Infobae buscó posicionarse como referente en Twitter mediante la compra de un Trending Topic (TT) patrocinado y, al parecer, la estrategia parece haberle dado resultado. Sin embargo es posible que el costo de publicidad por usuario haya sido bastante elevado. Durante los cacerolazos del 8N Infobae fue el usuario más mencionado y el más influyente. En segundo lugar y tercer lugar estuvieron Cristina Kirchner y Mauricio Macri, respectivamente.

Me resultó interesante averiguar cuáles fueron los medios más influenciadores. Infobae fue, por lejos, el que más conversaciones generó. Luego estuvo C5N, producto de la piña que le dieron al periodista que estaba cubriendo el evento. Lanacioncom, Todo Noticias y Clarin se ubican en 3er, 4to y 5to puesto. Luego viene Youtube, posiblemente esto se deba a la transmición en vivo de Infobae. Radio Mitre, 678 y Telefé Noticias cierran el ranking.


¿Por qué bajó el nivel de conversaciones cuando subió la cantidad de tuits? (Un ensayo de respuesta)

Una posible respuesta a la pregunta ¿Por qué bajó el nivel de conversaciones cuando subió la cantidad de tuits? Es que en esta segunda ola de cacerolazos los anti-cacerolas estuvieron prácticamente ausentes. Sólo hubo un pequeño número de usuarios que dijeron frases cargadas de adjetivos como gorilas o caceroludos. Al no existir la otra campana, los que protestaron no tuvieran enfrentamiento y sólo se dedicaran a manifestar su reclamo. Además, en la primera ola de cacerolazos los funcionaros del Gobierno Nacional dijeron muchas más frases despectivas que en el 8N. Eso también puede haber canalizado las oraciones hacia una expresión de deseos y malestares y no tanto hacia el intercambio con otros pares que defienden con furor la gestión de Cristina Kirchner. Lo cual podría explicar la reducción en el nivel de conversaciones.

*Nota: En realidad se escribieron mucho más que esa cantidad de tuits. Esto es sólo una muestra, no la población total. Esto sucede porque hay muchos tuits que fueron sobre el cacerolazo pero sin incluir palabras como "cacerolazo", "caceroludos", "8N", etc.

domingo, 4 de noviembre de 2012

Usuarios influyentes en Twitter durante los cacerolazos del 13 de Septiembre en Argentina

En Twitter los usuarios pueden mencionar a otros usuarios de la red. Esas menciones se pueden interpretar como un nexo entre unos y otros usuarios. Por ejemplo, si el usuario @agregori escribe un tuit mencionando a @MITEcon visualmente esto se puede representar como una flecha que sale del primero hacia el segundo de los usuarios.

En este ejemplo sólo hay dos usuarios y un enlace, pero a medida que se van agregando más y más menciones se va creando un tejido de usuarios y enlaces más denso y complejo.
Con el objetivo de determinar quiénes han sido los usuarios más influyentes en Twitter durante los cacerolazos y manifestaciones acontecidas en el mes de septiembre de 2012, desarrollé una base de capturando todos los tuits que hablaran del Cacerolazo. Para eso lo que hice fue hacer una búsqueda de los tuits realizados en Argentina que incluyesen las palabras “Cacerolazo”, “Caceroludos”, “Cacerolas”, y otras variaciones. La base de datos que armé cuenta con más de 100.000 tuits. Como en la captura que se puede ver abajo, la base cuenta con una gran cantidad de tuits en donde el hacedor del tuit menciona a algún otro usuario. Cerca del 75% de los tuits de esta muestra incluyen al menos una mención a otro usuario. Ese es un dato que ejemplifica con claridad el aspecto social de Twitter.
En el ejemplo de la imagen la mención de @kikazaaa a @Lanataenel13 crea un enlace que tiene una dirección, en donde la dirección indica que el primero mencionó al segundo. El grafo que sigue es la red de menciones entre más de 27.000 usuarios de Twitter que específicamente hablaron del cacerolazo y que mencionaron algún otro usuario. Cada línea de color es un tuit y cuanto más ancha la línea, más menciones un usuario le hizo a otro usuario. Y cuanto más grande es el nodo, más influyente.
Red de menciones en Twitter durante los cacerolazos de Septiembre de 2012 en Argentina. 

Lo interesante de este enorme grafo, y es por eso que tiene diferentes colores, es que hay dos grupos claramente diferenciados. Uno de los grupos, el amarillo son usuarios que están a favor del cacerolazo. Mientras que los que pertenecen al grupo de color naranja son los que están en contra del cacerolazo. El grupo que está a favor representa el 67% de la red, y el grupo que está en contra es el 27% de los nodos; los demás grupos suman el 5% restante.

¿Cómo determinar los grupos? 
A la inversa de lo que hubiera hecho desde un principio, para armar los clusters utilicé el algoritmo que desarrolló Mark Newman, profesor de la Universidad de Michigan. El algoritmo permite, a partir de la estructura modular de la red, armar clusters. Una vez que el algoritmo arrojó los resultados fui a ver de qué hablaban y quiénes eran los usuarios influyentes en cada uno de los clusters. También podría haber hecho el camino inverso, analizar primero de qué se habló y luego agrupar usuarios de acuerdo a las temáticas de las que hablaron. Pero en esta oportunidad quería medir la capacidad del algoritmo para determinar quiénes estaban a favor y quiénes en contra del cacerolazo.
Un resultado valioso de este experimento fue que es muchísimo más eficiente en términos de tiempo y esfuerzo recorrer el camino desde el algoritmo hacia el análisis del texto, que hacerlo a la inversa.

¿De qué habla cada grupo?
El grupo verde habló de los cacerolazos en Plaza de Mayo y en las diferentes plazas de Córdoba , Santa Fe y Mendoza. Los bocinazos fueron el sonido más mencionado. Las imágenes y fotos compartidas en las redes sociales están llenas de adjetivos relacionados a lo multitudinario e impresionante del evento. También hubo enojos contra Guillermo Moreno y su forma despectiva de tratar a los que fueron al cacerolazo. Se habló de la inseguridad, de basta de los K, de la corrupción y de la inflación. Muchos indicaron que fue una manifestación del pueblo y señalaron a las preguntas en Harvard como un punto crítico en los acontecimientos. También se señaló al 8N como un nuevo punto futuro de encuentro para protestar.
Los del cluster naranja indicaron que quienes fueron a cacerolear son unos caceroludos (fusión de cacerolas + boludos). Arrojaron sospechas sobre la espontaneidad de la convocatoria. Señalaron a TN y Clarín como promovedores del cacerolazo. Indicaron que quienes protestas son la derecha, son gorilas y golpistas que tienen las cacerolas essen o de teflón llenas de comidas desde el 2003. También dijeron que las protestas son porque la Cadena Nacional no les permitió ver Graduados y que se quejan porque no pueden viajar a Miami o ver Tinelli. Y que podían perderse las cacerolas en el orto.
Usuarios influyentes
Existen diversas maneras de determinar quiénes son los usuarios influyentes dentro de este enjambre de comunicaciones. Por ejemplo, uno podría tomar la cantidad de followers que tiene cada uno de los usuarios y afirmar que quien tiene más followers es el más influyente. También podría pensarse que si bien un usuario puede tener pocos followers, si alguien más influyente lo menciona, entonces este usuario pequeño se vuelve más relevante. Ese último criterio se puede determinar utilizando el algoritmo PageRank o algún otro semejante. También se pueden utilizar otras medidas de centralidad que establezcan cuán en el centro o en la periferia de la red se encuentra cada nodo. Todos estos son métodos válidos para determinar la capacidad de influencia de un usuario, sin embargo, en función de mi experiencia en el trato de redes en Twitter, encuentro que el método más simple es el que mejor revela quiénes son los usuarios influyentes. Cada vez que un usuario cualquiera es mencionado se genera un enlace entrante hacia ese usuario. Dado que esta es una red donde los enlaces tienen dirección, contabilizar la cantidad de enlaces entrantes nos revela qué usuarios estuvieron presentes en más cantidad de tuits realizados por otros diferentes usuarios. Por ejemplo, aquellos que generan un contenido que el resto considera valioso o interesante como para retuitearlo, suelen recibir más cantidad de retuits. Los retuits son menciones al usuario que hizo el tuit y, lo que es lo mismo, son enlaces entrantes para su creador. Lo cual, en este análisis, lo ubica como influyente. Que sea influyente no significa nada respecto de la cualidad de su reputación. Así, en este caso utilicé la medida de enlaces entrantes a cada uno de los usuarios para determinar quién es el más influyente o popular.
Si bien se podría hacer una lista larga de todos los usuarios ordenados por capacidad de influencia, preferí dividir la lista de acuerdo a los dos grupos (verde y naranja) antes señalados. De esa manera se puede identificar con claridad quiénes son los influyentes en cada uno de los grupos. Las listas muestran los 5 usuarios más influyentes de los dos clusters más grandes de la red:
Estos han sido los usuarios que más menciones han recibido durante los cacerolazos. Debido al método que utilicé se -en general- puede afirmar que la influencia de cada usuario está dada en gran parte de acuerdo a la cantidad de retuits que tuvieron sus tuits. Aunque también hay una parte importante que tiene que ver con los mensajes dirigidos a estos usuarios. Una nota, tanto Twitter como Favstar utilizan el método de lo más retuiteado para ordenar sus resultados de búsqueda y rankings.

Evolución en el tiempo
Visualizar una red de forma dinámica es algo que tiene su complejidad. El gráfico muestra la cantidad de tuits que se hicieron cada día desde el 1/Sep al 15/Oct. Como es típico en el comportamiento de reacciones frente a noticias, las redes sociales y las búsquedas de Google suelen tener un pico y una caída muy aguda. Todo ocurre en un espacio de tiempo muy reducido y luego se apaga rápidamente.

Por eso mi intento de graficar la red de forma dinámica resultó algo infructífero porque la red tiene una explosión en dos o tres días y luego la actividad se desvanece. En un próximo tratamiento sería interesante acotar la dinámica a un día específico para poder ver con más claridad cómo se comporta la red.
Photobucket


Nota:
En este pdf se puede ver con más claridad los nodos más grandes (más influyentes). A diferencia de la red exhibida más arriba, en esta quité todos los nodos que tienen una sola mención.

martes, 6 de marzo de 2012

Foursquare: Análisis de 10.850 check-ins en la Ciudad de Buenos Aires

Lo que sigue es un análisis de 10.850 check-ins realizados por 2.889 usuarios con la aplicación Foursquare en la Ciudad de Buenos Aires. La ventana de tiempo es 17/Nov/11 al 23/Feb/12. En total son 99 días de datos.

Días con más actividad:

En promedio se realizan por día 109 tuits que son check-ins dentro de la Ciudad de Buenos Aires. Los días con más check-ins suelen ser los jueves mientras que los días con menos actividad son los sábados y domingos. Los jueves tiene un 17% más de actividad que el promedio, en cambio los domingos la actividad cae un 23% en relación al promedio. En el gráfico se puede ver la actividad promedio de cada día en relación al promedio de la serie.
Actividad por día de la semana.
Los días festivos y feriados la actividad cae. El día con menos actividad fue el 1 de enero de 2012. Otros días con poca actividad fueron el 24 y 25 de diciembre.

Frecuencia de uso

Los 10.850 tuits de la muestra fueron realizados por 2.889 usuarios diferentes. En promedio hay 98 usuarios diferentes activos por día y la tendencia es suavemente creciente. El siguiente gráfico muestra la evolución de los usuarios activos por día. Aquí se puede apreciar con facilidad la caída de la actividad los días 25/dic y 1/ene.

Usuarios activos por día.
Horarios con más actividad

Cuando se analiza la actividad por hora del día aparece un patrón muy interesante. En primer lugar, los días de semana se diferencian de los fines de semana. De lunes a viernes la actividad tiene picos a las 9hs, a las 13hs, a las 19hs y a las 21hs. Y valles entre las 11hs y las 12hs, las 15hs y las 17hs y a las 20hs. Los días de semana el comportamiento parece estar fuertemente influenciado por los horarios de desayuno,  almuerzo y cena.

En el gráfico se puede observar la cantidad de tuits por hora en relación al promedio de tuits por hora, de esa manera lo que se compara es el comportamiento, y no la magnitud, de la serie "Lunes a Viernes"con la serie "Sábados a Domingo".

Actividad por hora diferenciado para días laborables y fines de semana.
Los fines de semana la actividad comienza más tarde, aunque también es más alta durante la noche. El horario con menos actividad es a las 7hs, mientras que los días de semana el punto más bajo es a las 4 de la mañana. Lo cual resulta coherente con el hecho de que los días laborables la gente requiere levantarse más temprano.

La actividad de los sábados y domingo se caracteriza por carecer del pico de actividad del desayuno. Mientras que el almuerzo, a diferencia de los días de semana, es más largo y estable. Por ejemplo, el valle de las 16hs es mucho menos pronunciado que ese mismo valle de los días laborables. El horario de los fines de semana con más acción se da a las 19hs.

Lugares más visitados

En la muestra analizada hay registros de 1.231 lugares donde se hizo check-in.  Los 10 lugares más visitados son:

Top-10 Lugares según visitantes únicos.
Los lugares más visitados están claramente relacionados a los horarios con más audiencia analizados anteriormente. El 18% de los usuarios de la muestra hicieron al menos un check-in en Starbucks, McDonald's o Burguer King. En otras palabras, los check-ins más populares son los que se hacen en los lugares de comida.

Sólo analizando este Top-10, Starbucks y Aeroparque son los que mejor relación tienen de check-ins respecto de visitantes. Quienes van a Starbucks hacen, en promedio, 1,78 check-ins desde ese lugar, y quienes van al Aeroparte hacen 1,51 check-ins. Mientras que Galerías Pacífico (1,26), el Barrio Chino (1,3) y Recoleta Mall (1,37) son los que, peor ratio check-ins/visitantes tienen.

Lugares más visitados por hora del día

Una forma reveladora de ver la información consiste en ver los check-ins discriminados por lugar y por hora. El gráfico de abajo muestra eso mismo para los días laborables; lunes a viernes.
Así queda más claro qué actividades están ocurriendo durante el día. Por ejemplo, los check-ins en el Aeroparque Jorge Newbery son más frecuentes en la mañana. Galerías Pacífico tiene su pico de visitantes al mediodía y Starbucks es más frecuentado alrededor de las 9hs y a las 18hs.


Los fines de semana cambian las actividades más populares. Frank's y Terrazas del Este aparecen como los más visitados entre las 0hs y las 4hs. Los primeros check-ins en Aeroparque son un poco más tarde que los que cuando se hacen entre lunes y viernes. A la tarde, alrededor de las 19hs, aparecen Recoleta Mall con un pico de audiencia.

Network Análisis de los lugares más visitados

Cada persona que visita y hace un check-in en un local establece un vínculo entre él y el local. Para los 10.850 cuento con el nombre del usuario que creó el tuit y el lugar específico sobre el que hizo el check-in. De todos estos datos sólo tomé aquellos check-ins que se hicieron sobre los diez locales más visitados analizados más arriba en este post. Como lo que me interesa es observar el vínculo entre la persona y el local desagregue todos los locales de cada una de las marcas más menciondas. Así, por ejemplo, el análisis incluye 18 McDonald's y 11 Burger King's.

La red abajo exhibida muestra los check-ins realizados sobre cada uno de los 62 locales de las 10 marcas más mencionadas. En total hay 1.315 personas que señalaron estar en alguno de estos locales. Las personas reciben el ícono de "personita". Posiblemente el único ícono que merece explicación es la bandera china que hace referencia al Barrio Chino.

El 71% de estos usuarios hizo un sólo check-in y el 25% de los usuarios hizo check-in en dos o más lugares. La mayoría de los usuarios -el 89%- hizo entre 1 y 2 check-ins.

El algoritmo utilizado para ordenar los nodos trabaja tratando a cada nodo como un electrón. Los electrones se repelen entre sí, pero se atraen si tienen un enlace. El algoritmo modela estas fuerzas hasta que las tensiones del sistema quedan en equilibrio. Así, en nuestro caso, los nodos que quedan en las afueras de la red son lo que están conectados por muchos usuarios, pero que hicieron un sólo check-in. Ejemplo de esto son los casos del Aeroparque, el Barrio Chino, Recoleta Mall, Abasto Shopping  y Galerías Pacífico. En cambio en el centro de la red vamos a encontrar los nodos que tienen una proporción mayor de personas que hicieron 2 o más check-ins. Visualmente es fácil identificar que los Starbucks tienen un público  más activo. Por ejemplo, el 87% de los usuarios que hicieron check-ins en el Starbucks de Reconquista 383  y el 73% de los que lo hicieron en el de Arenales 3.360, señalaron que estuvieron ahí y, también, en algún otro lugar. También suelen quedar en el centro los McDonalds y los Burguer King.

Red FSQ

Distribución geográfica de los locales de las marcas con más check-ins


Los puntos más rojos y amarillos son los que más check-ins tienen, ejemplo de esto es el Abasto y el Aeroparque. La mayor concentración de locales con check-ins se encuentra en el microcentro y centro y norte de la Ciudad.


lunes, 28 de noviembre de 2011

Usuarios de Internet en Argentina por Provincia a Octubre de 2011


Usuarios de Internet en Argentina
Según Comscore, líder mundial en mediciones del mundo digital, en octubre de 2011 había 13.277.000 usuarios únicos de Internet en la Argentina. Resulta difícil encontrar estadísticas que indiquen cuántos usuarios hay de Internet en la Argentina por cada provincia. En cambio, hay varias mediciones sobre la cantidad total de usuarios de Internet en nuestro país. Por ejemplo, de acuerdo al Banco Mundial, en el 2009 el 30% de la población argentina estaba conectada a Internet (ver gráfico abajo). Esto es cerca de 12 millones de personas. Otras estimaciones establecían que en el 2007 Argentina tenía 16 mlls de usuarios (1). El sitio argentina.ar del Gobierno Nacional recientemente publicó una noticia que establecía en 21 mlls la cantidad de internautas argentinos (2).



De acuerdo a la American Registry for Internet, en la Argentina hay 13,8 mlls de IP´s. La IP es única por cada dispositivo que se conecta a la Web. El número de IP´s podría usarse como aproximado de la cantidad de usuarios de Internet. Sin embargo, hay que tener presente que varias personas pueden usar una misma computadora, por lo tanto habrían más usuarios que cantidad de IP´s. Y, también, hay servidores y otros dispositivos que se conectan a Internet y que no son utilizados por humanos, lo cual nos haría sobreestimar la cantidad de usuarios. Teniendo en cuenta estas salvedades, la cantidad de IP´s puede servir como una variable aproximada a la cantidad de usuarios de Internet.

El problema de determinar la cantidad de usuarios de Internet está en la definición. ¿Quién es un usuario de Internet? ¿El que navegó alguna vez? ¿El que navega todos los días? ¿El que tiene un dispositivo con acceso a Internet? Ese no es el único problema, también está el problema del método. Por ejemplo, la metodología de Comscore para determinar la cantidad de usuarios se basa en una gran cantidad de parámetros. Esos parámetros son analizados con criterios biométricos para identificar los comportamientos humanos de los realizados por máquinas. Por ejemplo, la forma en que realizan los clics, cómo mueven el mouse, etc. De los demás estudios desconozco qué metodología usan. Por esa misma razón es que para determinar la cantidad de usuarios de Internet por provincia me baso en las estimaciones de Comscore.

Cantidad de usuarios de Internet en Argentina por provincia
Más del 90% de los usuarios de Internet en Argentina usan alguna herramienta de Google. En otras palabras, casi todos los navegantes argentinos pasan alguna vez en el mes por el buscador de Google o por Youtube. Cada vez que pasan por alguno de esos sitios una cookie se guarda en la computadora del usuario. Esa cookie permite distinguir al dispositivo que pasó y/o que vuelve al sitio. Dada la gran penetración que tiene Google, la cantidad de dispositivos inseminados con esas cookies permite tener una aproximación muy certera de dispositivos que se conectan desde la Argentina.

El acceso a la información de Google desagregada por provincia me habilitó a aplicar esa distribución al total de 13,2 mlls de usuarios de Internet determinado por Comscore.
Por otra parte, el Indec genera estadísticas cada 3 meses de cantidad de conexiones a Internet por provincia. Los datos incluyen las conexiones desde hogares y desde las empresas. El criterio del Indec es considerar que hay una conexión por cada relación contractual existente entre una persona y un proveedor de servicios de Internet. En junio de 2011 había 6.441.330 conexiones desde hogares y 986.628 desde organizaciones. Lo que hace a un total de 7.397.958 conexiones. (3)

Con la información de Google de cookies por provincia y con los datos del Indec pude realizar tres estimaciones sobre la cantidad de usuarios de Internet por provincia en Argentina. La estimación “Google” consiste en aplicar al dato de Comscore la distribución de las cookies por provincia. Mientras que las estimaciones basadas en los datos del Indec distribuyen los 13,2 mlls de usuarios de acuerdo a 1) la cantidad de conexiones por hogares y 2) la cantidad de conexiones totales (hogares más organizaciones) por provincia. La tabla expuesta a continuación exhibe los datos de las tres estimaciones. (4)

Usuarios de Internet por provincia en Argentina a octubre de 2011:
Según estas estimaciones, entre el 62% y el 69% de los usuarios de Internet se encuentran en la zona Provincia de Buenos Aires más Ciudad de Buenos Aires.

Un problema serio de consistencia de estas tres estimaciones es que la Ciudad de Buenos Aires tiene una penetración de Internet (i.e. Usuarios de Internet / Población Total) superior al 100%. La estimación más baja da una penetración del 139%. Es interesante notar que esta incoherencia también se da con los datos de cookies únicas de Google. Quizás esto esté relacionado a la mala asignación de las IP en la Argentina que no permite saber con exactitud desde qué locación se está conectando el usuario. También es posible que debido a que muchas personas viven en Prov. de Buenos Aires pero trabajan en la Ciudad, se genere un solapamiento en el conteo de cookies.

El resto de las provincias obtienen una penetración consistente con su población (ver mapa inicial). Si dejamos de lado a Ciudad de Buenos Aires, según las estimaciones realizadas con los datos del Indec, Tierra del Fuego (59%), Chubut (34%), Neuquén (33%), Córdoba (33%) y Santa Fé (32%) tienen las mayores tasas de penetración. Mientras que la estimación realizada con los datos de Google ubica en el Top 5 a Santa Fe (44%), Santa Cruz (41%), Córdoba (32%), Neuquén (29%) y Buenos Aires y Mendoza con 25%.


Modelo explicativo de la cantidad de usuarios por provincia
Con el fin de evaluar la coherencia de los datos y a modo explorativo armé un modelo predictivo que relaciona la penetración de Internet en cada provincia con a) el porcentaje de hogares con necesidades básicas insatisfechas (NBI) b) la población total de la provincia y c) una variable de densidad.

Es de esperar que exista una relación negativa entre el porcentaje de hogares con NBI y la cantidad de conexiones a Internet. Una mayor población de bajos ingresos tiene menos posibilidades de adquirir servicios de este tipo.

La población total de la provincia debería correlacionar positivamente con la cantidad de usuarios. Donde hay más población es más factible que haya más consumidores capaces de adquirir el servicio. Además, esta variable está relacionada con la masa crítica necesaria para que las empresas de Internet estén dispuestas a realizar la inversión para proveer el servicio.

La variable de densidad es el cociente entre el departamento que más viviendas tiene, dentro de cada provincia, respecto del total de viviendas censadas en toda la provincia. Debido a que los costos de distribuir el tendido de fibra óptica aumentan cuanto más disperso están los potenciales usuarios, es esperable que a mayor concentración de viviendas, más conexiones de Internet.

En la estimación del modelo no tuve en cuenta los datos de Prov. de Buenos Aires y de Ciudad de Buenos Aires. En el caso de Prov. de Buenos Aires la exclusión se basa en que la medida de densidad no es adecuada. La Matanza es el departamento con mayor proporción de las viviendas de la provincia. Sin embargo, hay otros departamentos que también están muy densamente poblados. Ciudad de Buenos Aires no ingresa en el modelo porque la penetración de Internet excede el 100%.

La tabla expuesta a continuación exhibe los resultados de las tres estimaciones.


En gris se encuentran descatadas las variables que son significativas al 5%. Como se puede apreciar, las dos variables que son significativas en los tres modelos son la medida de densidad (Centralidad) y la medida de pobreza (NBI).

El porcentaje de la población con necesidades básicas insatisfechas resulta ser la variable explicativa más fuerte. En efecto, por cada 1% más de población con NBI, la penetración de Internet se reduce en un 1%. Mientras que por cada 1% más de densidad de viviendas, la penetración de Internet aumenta un 0,5%.
En la estimación de Google la variable población es significativa. La lectura en este caso es: por cada 1.000.000 de habitantes, la penetración aumenta un 9%.

Las tres estimaciones tienen un alto poder explicativo, las variables son significativas y tienen signos coherentes. En función de los resultados de las estimaciones, la distribución de usuarios de Internet por provincia con los datos de Google parece ser la que mejor se puede explicar con las variables seleccionadas. La segunda mejor es la distribución que tiene en cuenta el total de conexiones (residenciales + organizaciones) censadas por el Indec.

Links y Notas:
Todos los datos se pueden bajar haciendo clic aquí: https://docs.google.com/spreadsheet/ccc?key=0Ah_ZMWRG754hdFdaUmhXSVBxZC14Z1piSTNTOUpBdlE

(1) http://www.lanacion.com.ar/970128-en-la-argentina-hay-16-millones-de-usuarios-de-internet

(2) http://www.argentina.ar/_es/pais/C4719-mas-del-50-por-ciento-de-los-argentinos-ya-son-usuarios-de-internet.php

(3) El Indec cometió un error en el informe de Septiembre 2011. La suma de conexiones desde organizaciones por provincia no coincide con el total. Asumo que el total es el que está equivocado.

(4) Usuarios de Internet en Argentina por Provincia a Octubre de 2011: https://docs.google.com/spreadsheet/ccc?key=0Ah_ZMWRG754hdENCRHplVXlkcEpHVnZzVTVBc2Ffb1E

Gracias a Julián Rodriguez Orihuela por la ayuda con el mapa.

sábado, 29 de octubre de 2011

Network Motifs

Se le llama motifs a los subgrafos que aparecen con una frecuencia mayor que la observada en los grafos construidos de forma aleatoria. Por ejemplo, el lado izquierdo de la imagen muestra una red real, mientras que el lado derecho muestra cuatro redes construidas de forma aleatoria. En la red real el patrón triangular aparece 5 veces. En las redes aleatorias esta forma sólo aparece en 2 oportunidades. Esa mayor frecuencia podría estar indicando una característica intrínseca de la red real.

Para descubrir estos patrones se desarrollan algoritmos que comparan las frecuencias en las que aparecen los motifs en redes reales versus en redes construidas de forma aleatoria. En primer lugar se escanea el grafo original para obtener todos los subgrafos de n-nodos que existen en él y la cantidad de veces que aparecen. Luego se comparan la frecuencia en la que efectivamente aparecen con la frecuencia en la que aparecerían si el grafo se construyera de forma aleatoria. Aquellos subgrafos que aparecen en mayor frecuencia se entiende que son característicos de la red.

Para que la comparación entre la red real y aleatoria sea equivalente se construyen redes aleatorias respetando la cantidad de links entrantes y salientes que tiene cada nodo en la red real. Además, la red aleatoria está construida con la misma cantidad de nodos y enlaces que tiene la red real:

“For a stringent comparison, we used ramdomized networks that have the same single-node characteristics as does the real network: each node in the randomized networks has the same number of incoming and outgoing edges as the corresponding node has in the real network”.(1)

En general se establece una probabilidad menor o igual a 0.01 para indicar si el patrón es estadísticamente significativo. Así, por ejemplo, se dice que es un motif si la probabilidad de que aparezca ese patrón en una red construida de forma aleatoria es menor o igual a 0.01.

Detección de Network Motifs

En el trabajo Network Motifs: Simple Building Blocks of Complex Networks, Milo et al aplicaron el algoritmo desarrollado por ellos a varias redes. Las redes que analizaron eran genéticas, de neuronas, de la cadena alimenticia, de circuitos electrónicos y de Internet. La tabla de abajo muestra los resultados de sus investigaciones.

Por ejemplo, las redes Food webs en donde cada nodo representa grupos de especies y los enlaces indican qué nodo es predador de otro nodo revelaron dos tipos de motifs, el Three chain y el Bi-parallel. El Three chain quiere decir que los X´s se comen a los Y´s y los Y´s a los Z´s. El motif Bi-Parallel revela que si un predador tiene a dos especies como presas, es probable que esas dos especies compartan su presa.
Un aspecto interesante de la investigación es que los motifs que surgieron son diferentes según la red se trate de neuronas, circuitos electrónicos, páginas webs o genes. Esto podría indicar que es posible distinguir entre redes según los patrones dominantes.

Otra característica de las redes reales es que a medida que la red se van aumentando su tamaño, la concentración de motifs se mantiene constante. En cambio, en las redes creadas de forma aleatoria los patrones se van perdiendo. El gráfico de arriba muestra la concentración del motif Feedfoward loop en la red de Escherichia coli (círculos negros) y en las redes aleatorias semejantes (círculos blancos). En el caso de la red real la concentración se mantiene relativamente estable a medida que aumenta el tamaño de la red, mientras que en la red aleatoria la concentración decae.

Detección de motifs en las redes del Subte y de Aerolíneas Argentinas

En general las redes que trabajaron Milo et al tienen una gran cantidad de nodos y enlaces. La red más grande que analizaron, la de páginas webs, tiene 325.729 nodos y 1,4 mlls de links. También analizaron redes más pequeñas, como las de presa-predador. Pero en esos casos tuvieron la posibilidad de analizar varias redes pequeñas.

La detección de motifs requiere que el análisis sea extenso. Lo que sigue es sólo un acotado ejercicio para observar qué resultados se obtienen al analizar la red del subte de la Ciudad de Buenos Aires y la red aérea de Aerolíneas Argentinas.

La detección de motifs la realicé con el algoritmo desarrollado por Wernicke. En la red del subte de Buenos Aires el motif que se encuentra es este:
Aparece con una frecuencia de 6,6 veces en la red real mientras que en las redes aleatorias aparece con una frecuencia aproximada de 0,062 y una desviación estándar de 0,003.

 En la tabla se muestran los resultados que obtuve para el análisis de la red del subte y de Aerolíneas Argentinas para la detección de motifs de 3 y 4 nodos. En ambos casos los resultados generan motifs en donde uno de los nodos recibe más links que el resto.


Notas y Links:
(1) Network Motifs; Simple Building Blocks of Complex Networks. Milo et al Science 2002

Algoritmo desarrollado por Wernicke: Link

A excepción de la última tabla, el resto pertenece al trabajo de Milo.

domingo, 23 de octubre de 2011

Aerolíneas Argentinas: Análisis de su red aérea

El mapa muestra la red aérea de Aerolíneas Argentinas y Austral para los vuelos de cabotaje en Argentina. La fuente de la información es la revista Alta de octubre de 2011.
A simple vista se nota que el aeropuerto de la Ciudad de Buenos Aires es el nodo más relevante de la red. Todos demás nodos están conectados con Aeroparque Jorge Newbery. También es notorio que la mayoría de los nodos sólo pueden ser alcanzados si antes se pasa por Buenos Aires.

Una característica de esta red es que desde el punto de vista del pasajero, la red está dada. Si el pasajero quisiera transportarse desde La Pampa a Mar del Plata tendría primero que ir a Buenos Aires y luego viajar a la costa. Pero desde el punto de vista de la línea aérea, la red puede tomar cualquier forma. Los aviones pueden alcanzar cualquier aeropuerto sin necesidad de visitar algún otro en particular. Por eso mismo los instrumentos de medición utilizados para describir la red adquieren sentido sólo si se los piensa desde el lugar de pasajero.

En esta otra representación, que no tiene en cuenta la posición geográfica de los aeropuertos, se revela aún más la relevancia del nodo Buenos Aires dentro de la red.

Con el objetivo de tener una métrica que permita identificar las diferentes relevancias de los aeropuertos, calculé el PageRank y la Betweenness Centrality de cada nodo. El siguiente mapa muestra sobre cada aeropuerto un círculo cuyo tamaño es proporcional al valor de Betweenness Centrality.


Como se puede apreciar, el aeropuerto de Buenos Aires obtuvo un valor tan grande que no permite observar las diferencias entre los demás aeropuertos. Para reparar esto, en los siguientes dos mapas exhibo la Betweenness Centrality y el PageRank para todos los aeropuertos exceptuando a Buenos Aires.


Betweeness Centrality


PageRank

Los nodos que más PageRank obtienen –después de Aeroparque Jorge Newbery- son: Córdoba, Ushuaia, El Calafate, Salta, Bariloche, Mendoza y Trelew. En el siguiente link se encuentra la tabla con todos los datos.

Notas:
En este link se puede jugar con la tabla que contiene los datos de PageRank y Betweenness Centrality y las coordenadas de los aeropuertos: http://www.google.com/fusiontables/DataSource?snapid=S2969542lxz

Aquí están las coordenadas y los enlaces entre aeropuertos: http://www.google.com/fusiontables/DataSource?snapid=S296956HwTP

La fuente de los datos es la revista Alta de octubre 2011.