jueves, 5 de mayo de 2011

Presentación sobre Estadísticas Web (Web Analytics) en el Ararteko


Tal como os comenté hace dos días, el pasado miércoles 13 de abril estuve en el Parlamento Vasco, invitado por el Ararteko (Defensoría del Pueblo Vasco), realizando dos presentaciones:
Os expongo la presentación y mis notas en cada diapositiva, espero vuestros comentarios/críticas al respecto.



Diapo 1:

Estadísticas web (Web Analytics)

Dirección de Estudios y Modernización del Ararteko
.





Diapo 2
:

Como introducción de la sesión, os aporto esta cita de Avinash Kaushik, (uno de los gurús más conocidos del ámbito de la analítica web):
The ideals I want to transmit to my kids are:
work hard, be ethical, be curious”.
Y en eso precisamente está la clave: en la curiosidad, la semilla de la investigación... aunque, para investigar, para analizar se necesita medir:

¡Si no se puede medir no existe!”, así de claro, así de contundente.

En muy poco tiempo, lo que empezó siendo un juego ha acabado por transformar radicalmente nuestra sociedad: La Web.

Es lógico que se quiera tener más datos sobre el uso que se hace de la Web... ¿cómo? Con la analítica web.

Diapo 3:

Éstos son los objetivos de esta sesión.
  • Definir qué es la analítica web y cuáles son sus conceptos esenciales.
  • Proporcionar unos consejos básicos para poder tener unas estadísticas web de calidad.
La idea es dar una introducción – de nivel básico – sobre qué es la analítica web.

Diapo 4:

Índice de esta presentación:
  • Nomenclatura básica de las estadísticas web.
  • Generación de estadísticas por logs vs tags.
  • Otros modelos de generación de estadísticas web.
  • Principales herramientas actuales.
  • Consejos tener en cuenta para poder tener unas estadísticas de calidad.
Diapo 5:

Definición de web analytics:
"Estudio del uso que se hace de una web a partir de los datos que se derivan de la navegación que han realizado sus usuarios".
Es más difícil de definir que de entender...

Diapo 6:

Cada vez que realizamos una petición a un sitio web, ésta llega al servidor web quién procesa la petición devolviendo la página (o lo que sea) al usuario.

Además, por cada petición se guardan trazas en unos ficheros llamados de log.

A partir de esta información se generan las estadísticas web.

Diapo 7:

Éste es un ejemplo de una entrada de un fichero de log.
89.78.123.1 yisout.com - [16/Nov/2011:16:40:07 -0500] "GET /home.html HTTP/1.1" 200 15360 "http://www.google.com/search?q=salary+for+data+mining&hl=en&lr=&start=10&sa=N" "Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.1; SV1; .NET CLR 1.1.4322)" "-"
Podemos ver que tiene 10 campos:
  • #1: Dirección IP del usuario que hace la petición web:
    • En el ejemplo es '89.78.123.1'.
  • #2: Dominio donde va dirigida la petición web:
    • En el ejemplo es 'yisout.com'.
  • #3: Usuario autenticado (si lo hubiera):
    • En el ejemplo es '-' (eso significa que el valor es vacío, en este caso no hay un usuario registrado).
  • #4: Fecha y hora (en horario GMT) de la petición web:
    • En el ejemplo es '[16/Nov/2011:16:40:07 -0500]'.
  • #5: Recurso solicitado:
    • En el ejemplo es '"GET /home.html HTTP/1.1"' (el usuario ha pedido el 'recurso' página /home.html (recordemos que el dominio ya lo tiene del campo 2) con el propocolo HTTP versión 1.1).
  • #6: Código de retorno:
    • En el ejemplo es '200' (eso significa que todo es correcto no hay error; si este código fuera 404 entonces se habría producido un error, el de página no encontrada).
  • #7: Tamaño del recurso:
    • En el ejemplo es '15360' (eso significa que el recurso teine un peso de 15Kb).
  • #8: Referrer (desde qué página - si la hay - se ha clickado un link para llegar a la página dónde estamos ahora.
    • En el ejemplo es '"http://www.google.com/search?q=salary+for+data+mining&hl=en&lr=&start=10&sa=N"' (podemos ver que este usuario proviene de Google, además nos indica qué estava buscando en Google).
  • #9: User Agent (es una información más técnica, proporciona datos acerca del tipo de navegador que utilizan todas las persones que visitan nuestra web, también proporciona datos acerca de qué sistems operativo utilizan, etc.
    • En el ejemplo es '"Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.1; SV1; .NET CLR 1.1.4322)"' (eso significa que este usuario está utilizando un Microsoft Internet Explorer versión 6.0 en una plataforma Windows NT).
  • #10: Cookie(s) (si nuestra web utiliza Cookies aquí se indicarían los nombres de las cookies y sus valores..
    • En el ejemplo es '"-"' (eso significa que el valor es vacío, en este caso no se utiliza ninguna cookie).
Siempre se registran, por cada petición, estos 10 campos de información, ni más ni menos, siempre la misma información.

Diapo 8:

Hit: 1 petición por cada recurso web.

Aunque el usuario sólo ponga una URL en su navegador, éste usualmente realiza varias peticiones web:
  • 1 petición por la URL que le ha solicitado el usuario.
  • Cuando el servidor web devuelve la página solicitada, ésta probablemente tendrá otros elementos web (a menudo imágenes pero no sólo esto) que la complementan.
  • Para cada uno de estos recursos web, el navegador – y de forma totalmente transparente al usuario – realizará nuevas peticiones al servidor web.
  • Y así hasta que no quede ningún recurso web por pedir.
Diapo 9:


Se define una visita como aquella sucesión de peticiones de un mismo usuario que entre una petición y otra no pasan más de 30 minutos, (esta cantidad es un estándard de facto).

Es complicado de definir pero es un concepto fácil de entender.

Diapo 10:

Des de un punto de vista lógico, todos sabemos qué es una página.

Pero no está fácil definirlo formalmente: ¿Es una petición al servidor web que devuelve datos codificados en el lenguaje HTML?

En el caso anterior tenemos 1 visita de 6 páginas.

Con lo que se deduce que una visita tiene como mínimo una página, dicho de otra manera, el volumen de páginas servidas tiene que ser igual o superior al volumen de visitas recibidas.

Diapo 11:

Un visitante único es aquel que realiza las visitas, es el concepto más cercano a las personas, por esto es una de los indicadores más utilizados.

¿Sin embargo, cómo diferencias un visitante de otro?, ¿cómo sé que una petición es del usuario A y no del B?

Mediante el tracking de usuarios, o sea, discernir cada petición de qué usuario es.

Habitualmente este proceso no es fácil, especialmente si el sitio web no tiene activadas las cookies.

Diapo 12:

Duración de una visita: Tiempo (en segundos) entre la primera petición de una página y la última.

También podemos saber el tiempo que destinan los usuarios en cada página (siempre que después haya otra petición).

Diapo 13:


Un referrer es aquel sitio que ha proporcionado visitantes (mediante el click a un enlace) a mi sitio.

Google es uno de los principales referrers que existen actualmente.

Diapo 14:


Gracias a los referrers podemos saber cuántas visitas a nuestro sitio web provienen de buscadores.

Además, podemos saber qué palabras estaban buscando cuando han llegado a nosotros (a partir del análisis de la URL del referrer).

Diapo 15:

También podemos saber cuáles son los "caminos" de nuestro sitio web con más demanda, y ver dónde se "pierden" nuestros visitantes.

Diapo 16:

Gracias al penúltimo campo de los ficheros de log (el llamado UserAgent) podemos saber qué navegador está utilizando el usuario y, además, en qué plataforma.

Es una información muy importante, especialmente si desarrollamos páginas web para ser consumidas vía móvil, un ámbito que actualmente aún no está estandarizado, consecuentemente nos interesa saber qué navegadores son los más utilizados, (y los menos).

Diapo 17:


Como os comentaba antes, la Analítica Web también nos puede proporcionar estadísticas de errores (detectados).

Especialmente, las estadísticas más interesantes en este sentido son los errores de página no encontrada (el famoso código 404), son errores producidos por enlaces rotos.

No sólo es capaz de decirnos los enlaces rotos sino que además nos indica qué página tiene el enlace roto (sea de nuestro sitio web o no) mediante el campo referrer.

Diapo 18:

También podemos saber el origen geográfico de nuestras visitas.

Conviene comentar que esta información a menudo es poco precisa, especialmente si es a nivel de ciudad, da mucha información errónia fruto de cómo gestionan la infraestructura de conexión a Internet los proveedores ISP.

Pero a nivel de país sí que es bastante preciso los datos obtenidos.

Diapo 19:

Toda la información está en los ficheros de log, en la combinación de estos 10 campos de información.

Diapo 20:

Hay otro sistema de realizar las estadísticas: el sistema de tags.

Cada vez que realizamos una petición a un sitio web, ésta llega al servidor web quién procesa la petición devolviendo la página (o lo que sea) al usuario.

Además, cuando la página web llega al navegador éste se da cuenta que tiene que realizar una petición adicional (lo que se llama “la huella” o el tag).

Este petición del tag va a parar a otro servidor (de procesamiento de tags) que guarda la información estadística en otro fichero de log, (pero éste no está limitado a sólo 10 campos y, además, se pueden añadir nuevos campos en función de las necesidades estadísticas de tu sitio web, por ejemplo, puedes añadir datos de negocio).

A partir de esta información se generan las estadísticas web.

Ello permite tener estadísticas más ricas y más adaptadas a nuestras características comparado con el sistema de logs (que siempre es igual).

Pero requiere modificar todas las páginas web.

[Para más información os recomiendo consultar este post: Generación de estadísticas web vía ficheros de log o vía etiquetas].

Diapo 21:

Otro sistema de generación de estadísticas web es el panel, de empresas como Nielsen.

Se valen de métodos estadísticos para, seleccionando sólo una pequeña parte de los internautas, inferir las estadísticas para todo el universo de mi sitio web.

El problema de este sistema es definir cuál es nuestro universo de usuarios... no es nada fácil!

Otro sistema es por encuesta (al estilo tradicional de encuestas y después inferir las estadísticas para todo el sitio web).

El problema de este sistema es su alto precio.

Diapo 22:

Hay un montón de herramientas analíticas en el mercado.

Estas son algunas de las más conocidas:
Diapos 23 y 24:

Los datos sin contextualizarlos ni contrastarlos con periodos anteriores no sirven de nada.

Dicho de otra manera, una cifra por si sola no indica nada, es imprescindible contextualizar.

Diapo 25:

A partir de esta diapositiva empieza las 10 recomendaciones relacionadas con la gestión de la analítica web.

#1: Conoce siempre como se generan (técnicamente) los indicadores web.

Hay que dominarlo para entender el porqué de los resultados obtenidos y como mejorarlos.

Por ejemplo hay que conocer bién los dos principales sistemas de generación de estadísticas web: por logs vs. por tags.

Los pros de un sistema son las contras del otro.

Sistema basado en ficheros de log:
  • No requiere la modificación de las páginas.
  • No se genera más tráfico.
  • Permite la generación de datos viejos (siempre que se disponga de los ficheros de log).
Sistema basado en etiquetas, (tags):
  • Podemos tener estadísticas más ‘ricas’ y adaptables a cada caso.
  • Permite tener los servidores web en remoto, (ejp. Akamai).
  • El cálculo de estadísticas puede ser continuo (y más ligero).
[Para más información os recomiendo consultar este post: Generación de estadísticas web vía ficheros de log o vía etiquetas].

Diapo 26:

#2: Conoce la variedad de indicadores web que existen así como su características.

En función de las necesidades utilizaremos un indicador u otro.

Visita:
  • El indicador más subjetivo… pero sigue siendo uno de los más utilizados. Pero... ¿cuándo acaba una visita?
Visitante (único):
  • Se utiliza por ser el indicador más parecido al número de personas diferentes que consultan la web. Pero... ¿cómo se identifica a un visitante único?
Solicitud de página:
  • Se utiliza más a nivel interno.
  • No se debería utilizar este indicador para comparar webs ya que... ¿cuál es la definición de página?
Petición (hit):
  • Es el único indicador 100% objetivo pero es un indicador muy técnico.
Referrer:
  • ¿Dónde estaba antes nuestro visitante? Pero sólo en el caso que haya venido por clickar un enlace.
Indicadores de errores:
  • De servidor… de cliente... no todos, sólo los que ha podido detectar.
Duración de las visitas:
  • ¿Trabajamos con la media o con la mediana?
Tiempo medio de respuesta:
  • Mejor diferenciarlo por entornos tecnológicos.
Disponibilidad del servicio:
  • En porcentaje respecto al tiempo total (utilizado para ver si se cumplen los SLAs pactados).
  • Para el total de la web, pero también para determinadas secciones críticas.
I muchos, muchísimos más indicadores…

Diapo 27:

Como os comentaba antes…

#3 Contrasta siempre los resultados obtenidos con los datos de periodos anteriores.

Dar cifras aisladas sin ninguna comparación con periodos anteriores no dice absolutamente nada, lo importante es tener la cifra y la evolución, ver si se ha crecido/decrecido y el porqué.

¡Lo importante son las tendencias!

Diapo 28:

#4: Desmenuza los resultados hasta llegar al detalle que haga falta para entender los datos obtenidos.

No sólo hará falta desmenuzarlo sino que también hará falta adaptar el 'lenguaje' y hacer que éste sea entendido por los destinatarios finales de los datos estadísticos.

Diapo 29:

#5: Siempre intenta explicar el porqué de los datos obtenidos.

Los datos por sí solos son muy 'fríos', hay que averiguar los motivos que justifican los datos resultantes, eso implica tener un contacto directo y constante con los equipos técnico y de contenidos de la web así como con el equipo de comunicación.

Diapo 30:

#6: Complementa los datos estadísticos internos con datos estadísticos externos.

Complementa tus datos internos con servicios externos que no sólo complementarán la información que ya tienes sino que ayudarán a contrastar tu web con el de la competencia.

Un buen ejemplo de fuente externa de datos estadísticos es Alexa.

Hay más: Compete, Netsuus, HitWise, ComScore, Google Trends, etc.

Diapo 31:

#7: Innova el catálogo de servicios relacionados con los indicadores web.

La tecnología web está cambiando constantemente y, de hecho, todo el fenómeno Web 2.0, las redes sociales, los smartphones… están modificando muchísimo la web; es lógico que en los indicadores web también sea necesario innovar.

Diapo 32:

#8: Es muy importante hacer continuamente pedagogía de los indicadores web en todos los actores implicados.

Las estadísticas web son una de las tareas que generalmente siempre se le dedica menos esfuerzos, está poco valorada... pero es la mejor manera (a menudo la única) de saber el retorno de la inversión que se está haciendo a un determinado site.

Conviene explicar bien los 'cuatro conceptos' básicos de los indicadores web para ahorrarse problemas y malentendidos.

No es un tema técnico, es un tema de negocio, de saber el retorno de la inversión, de saber si se ha invertido bien… proporciona datos muy importantes para la Dirección, consecuentemente conviene explicar bien los conceptos más importantes.

Aspectos a destacar:
  • En dicha pedagogía deja claro que las estadísticas web se generan poco a poco (diariamente) y siempre hacia adelante, nunca hacia atrás.
  • Avánzate a los acontecimientos, sé proactivo a partir de las noticias, información, que dispongas del site genera/modifica reports.
  • Cocina’ los resultados y proporcionalos ‘premasticados a los dirigentes para que éstos los puedan ‘digerir’ más rápidamente.
  • Elimina información demasiado técnica y añade prosa.
  • Redacta informes con periodicidad.
  • Fijate más en las tendencias y poco (muy poco) en los valores absolutos.
Diapo 33:

#9: Integra la analítica web con otros datos.

No tiene sentido que los datos analíticos estén aislados, nada es porque sí, todo tiene una explicación o un dato que lo complementa, y esto no siempre está “controlado” bajo el paraguas de la analítica web.

Por ejemplo, es conveniente integrarse con otras tecnologías como los tests de usuarios, el SEO o con el sistema de reputación social, entre otros.

Diapo 34:


#10: Hay que saber venderse adecuadamente.

Se pueden sacar mil conclusiones diferentes de los mismos datos.

Consecuentemente es importante saber para qué se quieren los datos y, en función de eso, resaltaremos un dato u otro.

No se trata de mentir, se trata simplemente de reforzar un mensaje respecto de otro.

Aspectos a tener en cuenta:
  • La estadística es una ciencia ‘poco exacta’.
  • Se pueden leer los mismos datos de diferente manera para realzar (o disimular) determinados aspectos.
  • Ten siempre en cuenta qué política está aplicando la organización, y, especialmente, habla con tus superiores para dejar claro cómo se quieren ‘vestir’ las cifras.
  • Nunca hay que mentir, se trata ‘simplemente’ de leer adecuadamente los resultados, jugar con los periodos de tiempos, las variables, añadir (o no) comparaciones con otros años, etc.
Diapo 35:

Pero siempre con una buena dosis de sentido común y de humor :)

Diapo 36:

En este punto hablé un poco de los datos analíticos del web municipal del Ayuntamiento de Barcelona: bcn.cat.

Diapo 37:

Gracias!



Aquí tenéis el fichero de la presentación:





Enlaces relacionados:

No hay comentarios: