Archivo de la etiqueta: analitica web

Cómo medir mi estrategia de marketing digital y vender más

Hará unas semanas el CEO de Adinton estuvo dando una charla sobre medición digital, aquí tienes acceso a la charla que es de lo que tratará este artículo.  Si quieres aprender cómo medir tu estrategia de marketing digital y vender más o simplemente quieres revisar la que actualmente utilizas, este artículo te será de gran ayuda. Explicaremos la importancia del marketing digital, enfatizando el e-commerce y explicaremos la mejor manera de medir tus esfuerzos de marketing online.

Cómo medir mi estrategia de marketing digital para vender más.

Todo se basa en la premisa de que, una estrategia es fácil de implementar si sabemos cuál es nuestro objetivo. Además, este objetivo será fácil de medir si sabemos cómo medirlo. Finalmente, conseguiremos nuestro beneficio si a parte de medir bien, sabemos dónde actuar y cómo actuar. Sigue leyendo Cómo medir mi estrategia de marketing digital y vender más

Medición de datos y analítica en tiempo real

En una sociedad donde todo es tan cambiante y coexisten tantos factores externos que determinan el éxito de nuestras campañas de marketing online, es más importante que nunca tener acceso a una herramienta de analítica y medición de datos en tiempo real para poder ser capaces de tomar decisiones lo antes posible.

¿Qué es la analítica en tiempo real?

Primeramente tendremos que definir qué es la información en tiempo real. Como bien dice la palabra, información en tiempo real son todos aquellos datos que son reportado mientras o segundos después de una interacción. Por lo que si existen usuarios en tu página web en el momento actual, esa información te será reportada instantáneamente. Todo este input se recolecta y acaba llamándose histórico cuando se mira desde el presente hasta una determinada fecha pasada. Sigue leyendo Medición de datos y analítica en tiempo real

Iniciación a los Marketing de Atribución. Aprende con 1 ejemplo

El marketing de atribución utiliza reglas para entender mejor a los usuarios y optimizar su experiencia para llegar a nuestros servicios o productos. Estas reglas conforman los modelos de atribución. En teoría, un modelo de atribución es un sistema que establece cómo se asigna el valor de ventas y conversiones a los puntos de contacto de las rutas de conversión. En concreto, el modelo de atribución te mostrará cuáles son los canales que están generando conversiones o ventas en tu web y qué canales no están funcionando (no están siendo rentables).

Los 7 modelos de atribución más populares y utilizados:

1. Última interacción.
2. Último clic indirecto.
3. Último clic de AdWords.
4. Primera interacción.
5. Lineal.
6. Deterioro del tiempo.
7. Según la posición.

Los canales más populares de las rutas de conversión:

1. Búsqueda orgánica y de pago.
2. Sitios de referencia.
3. Afiliados.
4. Redes Sociales.
5. Boletines informativos por correo electrónico.
6. Campañas personalizadas (incluidas las campañas offline).

Aprendé los 7 modelos con 1 solo ejemplo:

Un cliente encuentra tu sitio al hacer clic en uno de tus anuncios de Google AdWords. El mismo cliente vuelve una semana después al hacer clic desde una red social. El mismo día, vuelve por tercera vez a través de una de tus campañas de correo electrónico y, unas horas más tarde, vuelve otra vez directamente y realiza una compra.

¿Cómo lo mide cada modelo de atribución?

Descarga el Whitepaper de Modelos de Atribución que hemos realizado con un lenguaje claro, con respuestas basadas en la experiencia y ejemplos concretos para los siguientes temas:

1. Una definición clara de Modelos de Atribución y Customer Journey.
2. Tabla con PROs y CONTRAs de todos los tipos de modelos de atribución.
3. Caso práctico para detectar de un vistazo si necesito modelos de atribución.
4. Acciones de optimización basadas en los análisis de modelo de atribución.
5. Utiliza una herramienta muy sencilla para saber la influencia entre canales.
6. Las conversiones duplicadas no son ventas duplicadas.

Brecha en conocimiento de la Analitica Web

Tengo la inmensa suerte de dedicarme a la analítica web desde Junio de 1.999, concretamente desde el primer dia laboral después de San Juan. OJD me dió la tremenda oportunidad de contratarme en lo que era mi primer trabajo y además tuve la gran suerte de trabajar con un excelente equipo humano.

Desde la OJD viví, analicé y audité el tráfico web mediante logs, tags, nielsen, censal, paneles,… y 15 años después ya no sólo he mejorado mis skills como analista web, si no que con mucho esfuerzo lo he podido complementar con SEO, pero especialmente con cualquier estrategia de adquisición de tráfico remunerada, es decir, SEM, Afiliación, campañas de Display.

Estoy seguro que la analítica web aún no está viviendo su época dorada, tiene que dar un paso más allá y especialmente de la mano, o creo que mejor dicho, del rebufo del Big Data.

Pero durante todos estos años me he encontrado a dos grupos de analistas web: Los muy buenos y los Normales.

– Los Muy buenos, los excelentes, la élite… van más allá de mirar datos, hacer dashboards, además de proponer acciones. Pero son personas que más allá de lo que les enseñan, aprenden. Aprenden a hacer preguntas, algunas correctas otras no tanto, aprenden a obtener respuestas numéricas complejas de obtener, pero especialmente miden o saben lo que vale obtener tráfico y aprenden o saben lo que vale una venta.

– Los Normales, por no decir mediocres, se quedan en un plano de la analítica web muy superficial, nunca han creado al menos campaña de Adwords y no saben calcular el CPV mínimo para que una campaña sea rentable.

El problema no es que el segundo grupo exista, es normal en cualquier proceso de aprendizaje, si quieres ser del equipoA tienes que pasar por el equipoB. A mi modo de ver, es que no hay grupos entre la élite y lo normales, existe una brecha enorme. Esa es la brecha que me preocupa, porque hoy en día nos jactamos que el Big Data es el futuro, pero es que Google Analytics, ya de por sí no se exprime. Si GA no se exprime ¿cómo pretendemos obtener resultados del BigData?

Otro punto que me resulta extremadamente chocante es que en el grupo de élite de Analistas Web, nos encontramos pocos AnalistasWebs y muchos SEOs !!! SEOs!!! señores, que esta gente suficiente tienen peleándose con algoritmos y pandas, como para meterse en otra profesión, que requiere de tantas horas como la analítica web.

Creo que la analítica web es una profesión con futuro, compleja, apasionante y según el “arte” del analista se podrán obtener resultados espectaculares, pero los analistas web tiene que ponerse las pilas e ir mucho más allá.

Actualmente existe una brecha para acceder a la información, en unos años podremos encontrar una brecha en qué hacer con esa información.

Website Optimizer se integra en Google Analytics

Google ha anunciado mediante un articulo en su blog oficial de Google Analytics la integración de su Herramienta de Optimización Website Optimizer dentro de Google Analytics, como parte de los Experimentos de Contenido. Este es el anuncio que podemos ver si accedemos al Website Optimizer dentro de Google Adwords, que es su actual ubicación:

Website Optimizer se integra en Google Analytics
Website Optimizer se integra en Google Analytics

Tal como se informa en este anuncio, a partir de Agosto solo se podrá usar integrado en Analytics. Los usuarios que tengan test funcionando seran redirigidos a los Experimentos de Analytics. Veamos un video explicativo de los Experimentos de Contenido:

En en siguiente artículo de Marketing Land han hecho un exhaustivo análisis de las nuevas funcionalidades de los Experimentos de Contenido en Google Analytics.Google ha anunciado mediante un articulo en su blog oficial de Google Analytics la integración de su Herramienta de Optimización Website Optimizer dentro de Google Analytics, como parte de los Experimentos de Contenido. Este es el anuncio que podemos ver si accedemos al Website Optimizer dentro de Google Adwords, que es su actual ubicación:

Website Optimizer se integra en Google Analytics
Website Optimizer se integra en Google Analytics

Tal como se informa en este anuncio, a partir de Agosto solo se podrá usar integrado en Analytics. Los usuarios que tengan test funcionando seran redirigidos a los Experimentos de Analytics. Veamos un video explicativo de los Experimentos de Contenido:

En en siguiente artículo de Marketing Land han hecho un exhaustivo análisis de las nuevas funcionalidades de los Experimentos de Contenido en Google Analytics.

Doctor Metrics, Doctor en analítica web

Hace poquito de su lanzamiento, Doctor Metrics es un blog capitaneado por mi buen amigo Enrique Quintero, donde buscarán buscar el mejor diagnóstico a los males analíticos de cualquier web site de hoy en día, sea grande o pequeña. Igualmente hacen repasos y estudios de nuevas tendencias, herramientas o conceptos del día a día que cualquier web que precie mínimamente los datos que arrojan sus estadísticos, valorará.

Os recomiendo este blog de analítica web, de obligada lectura y cómo no! comentar, enviad preguntas, la vida de todo blog son los usuarios que hay alrededor de él.

Aprender a leer los datos de los estadí­sticos web

Toda web, portal, blog, emailing que se precie debe tener detrás un muy buen sistema de estadísticas, el cual nos proporcione todo tipo de información relacionada con la realidad del medio y a partir de la cual poder tomar decisiones de mejora.

Los datos que hoy en día puede ofrecer cualquier estadístico de medición de tráfico de nuestro site son amplísimos, incluso podemos recurrir a herramientas externas para conocer cual es la situación de nuestro site en la red o en el propio sector.

Afortunadamente la oferta de este tipo de servicios es amplia y podemos obtener servicios gratuitos o de un coste exagerado para la información que ofrecen, pero siempre, todo tipo de estadísticas y datos, está supeditado a una comprensión, situarlos en la realidad, saber conjugar estadísticas reales con acciones empleadas. En este punto desgraciadamente nos encontramos en que no hay tantos profesionales que sepan leer una informe de tráfico. Este es un problema que tienen muchos sites, pero si estas carencias son internas, más o menos se podrán camuflar, o más o menos veces creeremos saber la realidad de nuestro site. El auténtico problema viene cuando empezamos a facilitar datos de nuestra site y sobre todo cuando es en un intento de “posicionar” nuestra marca.

Por ello podemos analizar una situación de gran competencia en portales inmobiliarios: Fotocasa Vs Idealista.

Toda web, portal, blog, emailing que se precie debe tener detrás un muy buen sistema de estadísticas, el cual nos proporcione todo tipo de información relacionada con la realidad del medio y a partir de la cual poder tomar decisiones de mejora.

Los datos que hoy en día puede ofrecer cualquier estadístico de medición de tráfico de nuestro site son amplísimos, incluso podemos recurrir a herramientas externas para conocer cuál es la situación de nuestro site en la red o en el propio sector.

Afortunadamente la oferta de este tipo de servicios es amplia y podemos obtener servicios gratuitos o de un coste exagerado para la información que ofrecen, pero siempre, todo tipo de estadísticas y datos, está supeditado a una comprensión, situarlos en la realidad, saber conjugar estadísticas reales con acciones empleadas. En este punto desgraciadamente nos encontramos en que no hay tantos profesionales que sepan leer un informe de tráfico. Este es un problema que tienen muchos sites, pero si estas carencias son internas, más o menos se podrán camuflar, o más o menos veces creeremos saber la realidad de nuestro site. El auténtico problema viene cuando empezamos a facilitar datos de nuestra site y sobre todo cuando es en un intento de “posicionar” nuestra marca.

Por ello podemos analizar una situación de gran competencia en portales inmobiliarios: Fotocasa Vs Idealista.

El uno por el otro la casa sin barrer. Ambos han colocado un link desde sus respectivas Home a unas estadí­sticas en las cuales intentan reafirmar su situación de liderazgo en el mercado inmobiliario online español.

Idealista.com muestra su posición de liderazgo según datos de alexa. Es una realidad que alexa al menos, de forma más o menos fehaciente, nos permite compararnos entre sites, pero, porqué utilizar datos de un medio obsoleto? Me imagino que no tendrán otras herramientas que les permita compararse con Fotocasa en la cual salgan “vencedores”, si no es absurdo utilizar una herramienta obsoleta, en desuso y carente de fiabilidad. Cuando realmente hoy por hoy, y con los pocos datos que vamos a ver a continuación se puede aparecer como lí­der, y encima con datos de la competencia.
Lo que es más grave aún es lo de Fotocasa, utilizan datos de Nielsen. Según sus estadí­sticas son el portal inmobiliario lí­der a nivel nacional, tras ellos segundamano e Idealista, según contenido. Esta tabla es complementada con los datos de “Navegadores únicos” de Nielsen, en el cual, ellos aparecen lí­deres, seguidos muy de cerca de “Portal2”.

Viendo esta última tabla podemos pensar:

1.- Fotocasa es líder nacional en el mercado inmobiliario online.

2.- El Portal2, debe ser Idealista, si nos basamos en Alexa. Lo sé, me duele decirlo, pero no dispongo de más datos. Pero ojo, he utilizado el dato de Alexa, por que NO dispongo de más datos, sino tened por seguro que ni mencionaba su nombre.
Si comparamos con la otra tabla de Fotocasa:

Hora de las conclusiones:

Fotocasa: Líder, muy bien, pero disponen de mucho más contenido que idealista, no creo que sea motivo de orgullo, pensar que son líderes si no se transforma en tráfico. Se puede ser líder en contenido pero no se está transformando en tráfico, en el momento en que Idealista se pongan las pilas y amplíen contenido en otras zonas, de las que ellos son fuertes de por sí­, la balanza se inclinará a favor de éstos. Por qué quieres disponer de miles y miles de datos si sólo lo ven cientos de personas?
Es más, Idealista están ofreciendo mejor imagen de marca que Fotocasa, ya que el volumen de búsquedas para la Keyword “Idealista” aumenta mes a mes, comparado con la keyword “Fotocasa”.

Como hemos comentado anteriormente Idealista, tiene dos/tres ciudades fortín que le están permitiendo estar muy cerca en tráfico de Fotocasa. Como los partidos políticos, esas ciudades serán y son claves, es más, son las ciudades donde se producen mucho movimiento inmobiliario, han sabido moverse y han sabido hacerse fuertes en aquellas ciudades donde una empresa inmobiliaria a nivel nacional debe ser fuerte, la clave será mantener y aumentar presencia en otras ciudades, lógicamente.

Deberíamos pensar dos veces si realmente nos interesa dar información de nuestro tráfico en nuestra propia web. Se puede obtener mucha información y más aún si basamos ésta en datos que nosotros mismos damos. Sigue leyendo Aprender a leer los datos de los estadí­sticos web

¿Por qué no se aprovechan los datos de las estadisticas web?

Hablando con un amigo que trabaja en el departamento de sistemas de una gran empresa me comentaba algo que a mí me sigue sorprendiendo hoy en día pero que creo que pasa en multitud de organizaciones. Diariamente este departamento genera los datos estadísticos de su web que son accesibles por ciertos departamentos, pero sin embargo no se analizan los datos para obtener  comportamientos de los clientes o mejorar el site.

¿Por qué? ¿Es un hábito generalizado? ¿Por qué no se saca el máximo rendimientos de las estadísticas web?
Básicamente porque todavía no existen los suficientes conocimientos, porque no hay un responsable de analizar estos datos o porque no se sabe el rendimiento que se puede obtener de estos análisis.

Registrar los movimientos que se suscitan en una página en línea es un aspecto fundamental para comprender y visualizar el crecimiento o los problemas de cualquier proyecto virtual. Llevar un seguimiento de las formas a través de las cuales los navegantes cargan el contenido de la página, además de analizar sus comportamientos frente a la distribución de publicidades, menús, carros de compra u otros elementos, permiten describir el público que recorre el medio digital. En el caso de un comercio electrónico, identificar las acciones de los usuarios, entre la página de entrada y el envío de un pedido de compra, resulta muy beneficioso, completando así­ el misterioso espacio en blanco. Pero las aplicaciones de análisis web  también proveen otras finalidades, tales como medir el rendimiento de una campaña de e-mail, la exposición de avisos publicitarios, el impacto por la presentación de cambios de diseño en el sitio web, y más. Analizar el tráfico supone una destacada serie de ventajas que rápidamente son apreciadas, y que contribuyen a mejorar la experiencia de las personas que dan una vuelta por nuestra página, siempre y cuando se aproveche la información obtenida.

Uno de los aspectos más interesantes de las estadísticas web es que nos muestran la procedencia de las visitas y, por lo tanto, podemos saber cuáles son las palabras o frases que funcionan para nuestros sitios web y en qué buscadores esas frases son más eficaces.

Además de esta información se puede saber:

  • De qué paí­ses vienen las visitas.
  • Las páginas vistas por los usuarios.
  • Las páginas más vistas y las que menos.
  • Las páginas que más frecuentemente sirven como punto de entrada.
  • Los errores del servidor y los enlaces rotos.
  • Los sitios que más visitas nos enví­an.
  • Los buscadores que más visitas nos enví­an.
  • Los robots de cuales buscadores que nos han visitado.
  • Las palabras clave más importantes para nuestro sitio.
  • Los puntos de salida de nuestro sitio.

 

Estadísticas fiables para nuestra web

Quiero colgar publicidad en páginas web, pero el principal problema que encuentro es: ¿Cómo puedo saber realmente el tráfico que tiene esa página? Hablo con el webmaster y me dice que sus estadísticas son fiables, y que me va a cobrar según el tráfico que tenga en su web. Que funciona por baremos, de x a x+100 a tanto, de tanto más a tanto más, más dinero y así­ sucesivamente. Pero repito, cómo narices puedo saber el tráfico real? yo no me fio de lo que me diga esa persona, lógicamente dirá más de lo que realmente tiene, así­ podrá ganarse mejor el pan, con menos esfuerzo. Entonces, me gustaría saber si exite algún organismo que me certifique la cantidad que me dice el webmaster, o un dato al menos, lo más parecido con la realidad. Me pongo a investigar y encuentro, estadí­sticos web, y a Nielsen NetRatings y a OJD.

Si con este texto te has sentido identificado en algún momento de tu carrera profesional, creo que te va a interesar seguir leyendo.

  • Los programas de estadí­sticas web: Hace un tiempo funcionaban por el sistema de log’s, principal problema: Los log’s son editables, por lo que cualquier persona podrí­a quintuplicar sus estadí­sticas con un simple copiar/pegar. Además de que hay muchos webmasters que desconocen completamente lo que podrí­amos llamar “normas de auditorí­a web“. Es decir, la no contabilización de frames, lista completa de robots a excluir, etc. Actualmente la mayorí­a trabajan con etiquetas, mucho más fiable que el obsoleto sistema de logs.
  • Nielsen/Netratings: Sistema que pertenece al monstruo norteamericano AC Nielsen, buen sistema, sobre todo a partir del momento que compraron a Red Sheriff. Sistema de estadí­sticas, basado en la inclusión de etiquetas. Es un sistema muy completo y potente, proporciona cualquier dato necesario tanto para  webmasters como para departamentos de marketing para optimizar sus correspondientes trabajos. Pero, realmente nos podemos fiar de sus estadí­sticas? La contestación es: depende de la “buena fe” del webmaster. Nielsen Netratings no tiene un sistema “anti-fraude”, es decir, si el webmaster pone 5 etiquetas en la home, pues nos encontraremos con que la home ha quintuplicado su tráfico. Es un sistema que funciona muy bien en paises donde la gente su toma al pie de la letra las normas, y no piensan en quebrantarlas, como Alemania o UK, pero en este paí­s, en donde unos de los deportes nacionales es la picaresca, no refleja la realidad de una web, siempre y cuando el webmaster no intente aumentar su tráfico de forma “ilegal”.
  • OJD: Su sistema en la actulidad es muy similar a Nielsen, o viceversa. Sistema de etiquetas y proporcionan datos de usuarios únicos, visitas y páginas, páginas más consultadas y comparativas con meses anteriores. Actualmente no es el estadí­stico que proporciona más información, pero como punto positivo es que en caso de producirse “trampas” o “ilegalidades” tienen un equipo humano capaz de encontrarlas. Constan con una normativa, por lo que en caso de “trampas” pueden penalizar a la web.

Estos son los principales, a partir de estas mini-explicaciones, ustedes son libres de elegir el que más les interese, y siempre teniendo en cuenta sus necesidades.

Puntos débiles en los sistemas de estadí­stica web

Fuente: (Ing. Eduardo González González)

En este artí­culo analizaremos las causas de por qué los servicios básicos nos dan números erróneos, y daremos al lector los elementos de evaluación para que pueda por sí­ mismo determinar la fiabilidad de un servicio de estadí­stica web.

La enorme mayorí­a de los servicios gratuitos de estadí­sticas de acceso web nos muestran una visión distorsionada sobre lo que realmente ocurre en nuestros sitios web. Sin embargo existe la tecnologí­a necesaria para realizar análisis de tráfico absolutamente realistas… Lamentablemente estas tecnologí­as sólo suelen ser usadas por los servicios de estadí­sticas más caros (los planes “enterprise”, “premium” o “professional” que ofrecen los proveedores más importantes), en tanto los webmasters que optan por los planes gratuitos (también llamados “basic”, “free”, etc) se suelen contentar con reportes y gráficas que sólo reflejan una parte de lo que en realidad está ocurriendo en un sitio web (ésto en el mejor de los casos, ya que muchos servicios nos reportan números totalmente mentirosos). En este artí­culo analizaremos las causas de por qué los servicios básicos nos dan números erróneos, y daremos al lector los elementos de evaluación para que pueda por sí­ mismo determinar la fiabilidad de un servicio de estadí­sticas web. ¿Cuántas páginas tiene tu sitio? ¿las estás monitorizando todas? La mayorí­a de los sitios web se componen de varias páginas web (a pesar de que mucha gente usa indistintamente las expresiones “página web” o “sitio web” para referirse a lo que aquí­ llamamos “sitio”: la colección de páginas, imágenes, hojas de estilo, applets, CGIs, etc. que conforman un proyecto web alojado bajo un mismo dominio).

Ahora bien, cuando un sitio web se compone de varias páginas, todas ellas tienen la posibilidad de recibir una visita sin necesidad de que el visitante pase por la página de inicio, y este tipo de visitas directas tiende a incrementarse cuando nuestras páginas fueron indexadas por buscadores (que suelen mostrar subpáginas de diferentes sitios en los resultados de sus búsquedas). También es posible que desde otros sitios web existan enlaces hacia subpáginas especí­ficas de nuestro sitio, y ésta es otra fuente de visitas que no pasan por la página de inicio.
Los sistemas de estadí­sticas que se basan en la inclusión de un botón en nuestra página de inicio sólo contarán las visitas que abrieron la página de inicio, y por tanto no nos harán saber de toda la actividad que se desarrolle en el resto de los documentos de nuestro sitio web. No es lo mismo un “acceso” que una “visita” Acceso se llama a una apertura de página, no importa en qué condiciones: Si yo entro en un sitio web y hago click 9 veces en el botón “recargar” de mi browser, entonces generé 10 accesos a la página (un acceso inicial al entrar a la página, más 9 accesos que generé recargándola). Posiblemente el webmaster vea el reporte y diga “que bien, acaban de entrar diez personas!”… Visita se llama a la entrada de una persona bien individualizada a nuestra página, independientemente de cuantas veces la abrió o recargó en su browser. Es muy común que una persona que visita un sitio web lo recorra abriendo varias veces determinadas páginas (para volver a acceder a un menú, o una lista de links, por ejemplo).
Cuando manejamos el concepto de “visita”, también debemos manejar el concepto de timeout de visita. El timeout de visita es el tiempo de inactividad que debe transcurrir para que consideremos que una visita ha concluí­do. Este timeout puede variar entre 30 y 120 minutos. Una vez transcurrido este tiempo de inactividad, si el visitante vuelve a abrir la página, se le considera una nueva visita. Al fin de cuentas, sí­ es posible que una persona nos visite varias veces al dí­a. En los hechos se da y no tiene nada de extraño. Sólo debemos tener la precaución de determinar mediante el timeout si una nueva apertura de página es parte de una visita en curso, o en cambio la persona nos dejó y ha vuelto generando una nueva visita. Para terminar de ilustrar el concepto: imaginemos la situación que se generarí­a en una máquina instalada en un cybercafé, desde donde una persona visitó nuestra página. Si al cabo de un rato esa misma máquina es ocupada por un nuevo cliente que también abre nuestra página, no hay ninguna razón para dejar de contabilizarlo como visita.
¿Qué es lo que contabiliza tu sistema de estadí­sticas? ¿Accesos o visitas? No dejes que te hagan pasar accesos como visitas, pues en ese caso estarás viendo números mucho mayores a los verdaderos, que tal vez te llenen de satisfacción, pero que nada tienen que ver con la realidad de lo que pasa en tu web. Clientes detrás de Proxys y routers NAT Un servidor Proxy es un dispositivo que permite acelerar la conexión a Internet de sus clientes (las PCs que estén configuradas para navegar haciendo uso de sus servicios). El Proxy mantiene una copia local (cacheada) de las páginas más visitadas por sus clientes, y cuando un cliente busca acceder a una de esas páginas, el proxy en realidad le entrega la copia que tení­a almacenada localmente (si no cambió el contenido en el sitio original, por supuesto). Esto logra una importante aceleración de la navegación de sus clientes, además de que permite al administrador filtrar las peticiones a determinado tipo de sitios. Por ejemplo: en una escuela un proxy permite que el administrador bloquee el acceso a páginas para adultos, logrando al mismo tiempo una gran calidad de navegación a pesar de tener una lí­nea de baja velocidad para atender decenas de PCs en el aula de informática. ¿El problema? Que todas las peticiones a Internet parecen salir de una máquina única (el proxy), que esconde la actividad individual de las máquinas que tiene detrás. A su vez hay dos tipos de proxy: los anónimos y los normales. Los proxys anónimos esconden a Internet su condición de proxys, en tanto que los normales agregan en la cabecera HTTP una lí­nea parecida a la siguiente: “X-Forwarded-For: 200.40.236.70”, que nos permite saber que se trata de un proxy que nos está visitando a pedido de la máquina “200.40.236.70” en este caso.
El NAT (Network Address Translation) es implementado mediante routers (complejos dispositivos encaminadores, que constituyen el soporte de las comunicaciones en Internet) y es una técnica que permite a un proveedor de acceso a Internet lograr que una gran cantidad de clientes naveguen usando una misma dirección IP (Internet Protocol, o dirección de Internet). Para las empresas que cuentan con pocas direcciones IP es una solución ideal: las direcciones IP son un recurso cada vez más escaso, por lo que la técnica NAT se usa cada vez más. Hay poblaciones y pequeñas ciudades enteras que se conectan a Internet mediante un NAT configurado por su compañí­a de telecomunicaciones, usando unas pocas IPs para la conexión de miles de clientes. Desde el punto de vista de un sistema de estadí­sticas, todas esas máquinas son en realidad vistas como si se tratara de un solo cliente (lo que nos lleva a tener reportes de tráfico completamente alejados de la realidad).
Existe una tecnologí­a capaz de individualizar los clientes que nos visitan desde atrás de un NAT o un proxy anónimo: el “client footprint”, que consiste el análisis de un paquete de caracterí­sticas partuculares de la máquina (la “huella” de la máquina), que nos permite saber qué máquinas distintas están generando actividad en nuestro sitio a pesar de venir desde una misma IP. Esta técnica (de la cual he tenido la oportunidad de ser uno de sus desarrolladores) es usada por muy pocos sistemas de estadí­sticas web. Presta atención en la documentación de tu sistema de estadí­sticas: debe hablarte de “client footprint identification”, o al menos debe aclararte de qué forma resuelve el problema de identificación de las visitas NAT. Visitas desde .COM .NET .EDU y .ORG En los reportes sobre el origen geográfico de las visitas puedes ver cuántos accesos has tenido desde España, México, Argentina, etc. Pero posiblemente veas entre los paí­ses, que te han visitado desde “EEUU Comercial (.com)”, o desde “.net y .org”. Difí­cilmente las visitas que dicen ser de “EEUU Comercial (.com)” realmente provengan de Estados Unidos, ya que el dominio COM puede estar asociado a una máquina en cualquier lugar del mundo. Lo mismo para NET, EDU y ORG. Entonces ¿por qué el sistema de estadí­sticas no me da el lugar geográfico real de la visita, en lugar de decirme que es desde una red COM? Porque están utilizando una tecnologí­a fácil pero inapropiada: la resolución DNS reversa.
Cuando llega una visita a un sitio web, obtenemos con ella el dato de la IP de la máquina que realizó la petición (ejemplo: 200.96.85.14). Entonces el sistema de estadí­sticas hace una búsqueda DNS reversa para esa IP, con el fin de obtener el nombre de la máquina. Si usas Linux, prueba ejecutar el siguiente comando: “dig -x 200.96.85.14” entonces obtendrás el nombre de la máquina que tiene asociada esa dirección IP (en este caso 200-096-085-014.smace7003.dsl.brasiltelecom.net.br). Luego se analiza el nombre de la máquina, para ver si se obtiene información sobre el paí­s de origen… en el caso de nuestro ejemplo encontramos que el nombre termina en “.br”, lo que nos indica que se trata de una visita desde Brasil.
¿Pero qué ocurre cuando la resolución DNS reversa nos devuelve algo así­ como “80.58.35.237.proxycache.rima-tde.net”? Si analizamos el nombre de la máquina, no encontraremos nada que nos permita determinar en qué paí­s se encuentra. Entonces los sistemas de estadí­sticas baratos se contentan con decirnos que “es una visita desde .NET”. Es verdad, lo es. Pero cuando un sistema vuelca ese tipo de información en sus reportes, en realidad es para disimular su incapacidad para determinar la verdadera procedencia geográfica de la visita.
El método serio para determinar la situación geográfica de una dirección IP es mediante una base de datos de direcciones IP repartidas por paí­ses. Es el método que usan GeoIP (http://www.maxmind.com), o ip-to-country (http://ip-to-country.webhosting.info/) entre otros. Visitas desde origen desconocido Es una variante del problema tratado en el apartado anterior: cuando la resolución DNS reversa no arroja resultados, entonces no podemos obtener el nombre de la máquina desde la cual recibimos la visita. Este problema desaparece cuando se usa una base de datos asociando IPs con nombres de paí­ses, como ya se explicó.
Pero subsiste el problema de qué es lo que ocurre si la base de datos no está actualizada con respecto a las nuevas asignaciones IP por parte de los organismos de control (APNIC para Asia y el Pací­fico, ARIN para Norteamérica, LACNIC para Latinoamérica y el Caribe, y RIPE para Europa, Africa del norte y Rusia). La única solución fiable es la permanente actualización y corrección de las bases de datos de IPs por parte de nuestro proveedor de estadí­sticas. ¿Dónde reside el “motor” del sistema de estadisticas? Un Sistema de Estadí­sticas web puede ser un software instalado en tu propio servidor*, o puede ser un software instalado en otro lugar. Existe una antigua polémica acerca de la conveniencia de una u otra forma de monitorización de un sitio web. Para despejar nuestras dudas al respecto, en el año 2002 hicimos una serie de experimentos que arrojaron resultados esclarecedores: El experimento consistió en la creación de una página web bajo un dominio no público (lo cual nos garantizaba que no se recibirí­an visitas reales bajo ningún concepto). Se programó un agente de usuario especial, preparado para realizar una serie de 200.000 peticiones sobre la página en pruebas (mostrando diferentes cabeceras HTTP según una secuencia conocida: variando el agente de usuario, el uso de diversos proxys en distintos lugares del mundo, la densidad de peticiones por unidad de tiempo, etc). Entonces se “disparó” el generador de visitas, que cumplió con sus 200.000 visitas en un lapso de 24 horas, mientras la página web era monitorizada por 10 sistemas de estadí­sticas diferentes (5 nuestros y 5 sistemas comerciales). Al final de la prueba, todos los sistemas de estadí­sticas arrojaron diferentes resultados.
Pero lo más interesante del experimento es que en el propio servidor de la página web habí­amos instalado un sistema de medición, idéntico al que utilizamos desde otros 4 servidores en forma remota, y los cinco dieron resultados ligeramente diferentes. De ahí­ se deduce que un mismo software de control de tráfico web monitorizando un sitio desde su propio servidor difiere en precisión con respecto a la monitorización remota.
La información más exacta se obtuvo SIEMPRE desde el sistema de control que se encontraba funcionando en el propio servidor del sitio web (la actividad sobre el sitio ya se conocí­a de antemano al provenir 100% de un simulador de tráfico programado por nosotros mismos). Los experimentos se repitieron durante meses, variando los emplazamientos de los monitores remotos, las caracterí­sticas de las páginas web usadas, el software de simulación de tráfico, la densidad de las muestras, etc. Se llegó a muchas conclusiones cuyo análisis está fuera del cometido de este artí­culo. Pero en lo concerniente a este artí­culo, nuestra conclusión fue: Los sistemas de monitorización remota son menos fiables que aquellos que se encuentran instalados en el propio servidor web del sitio monitorizado. * Vamos a dejar de lado el estudio de los programas conocidos como “Analizadores de logs”, que analizan los archivos de registro de actividad generados por el propio servidor. Estos registros son sin duda la fuente de información más fiel acerca de qué es lo que ocurre en un sitio web. Pero su uso resulta engorroso, y la información que se obtiene es incompleta (no especifica las capacidades del browser en cuanto a plugins, por ejemplo), y no pueden identificar clientes detrás de proxys o NATs. Conclusión Son muchas las variables en que los sistemas gratuitos de estadí­sticas web realizan un “redondeo” de la información, que deriva en la generación de reportes completamente alejados de la realidad. Los más graves errores surgen de la confusión de “visita” con “acceso”, y de la falta de monitorización.