Resumen Que es un log y fracciónes que lo componen. Como extraer informacion. Excel puede ser un primer paso muy provechoso. Que
realizar con los frutos. Presentacion de
datos pruebas confirmar creencias. El analisis de log no es una ciencia exacta (pero se acerca). Agradecimientos y algunos enlaces de interes. 1. Que es un log y fracciónes que lo componen. El log de visitas es una fuente de informacion que debemos tener presente para evaluar el
rendimiento de vuestro site asi
como el extraer informacion sobre vuestros articulos. El log nos dara informacion sobre que informacion estan solicitando los usuarios que informacion les resulta mas interesante cuando la requieres rutas de informacion... Es muy significativo que esta fuente de informacion este accesible por todos los departamentos en un formato sencillo de comprender y sencillo de usar. Es primordial que la comunicacion
entre los departamentos (o individuos) que tienen la informacion del log y aquellos que la pueden necesitar sea fluida para no desaprovechar la riqueza de informacion que se puede extraer del log. Tecnicamente el log de visitas es un
archivo creado por el
servidor donde se facturan las acciones que los usuarios generan en la web. El archivo en bruto muestra un formato bastante espeso y su dimension puede ser un asunto a la hora de manejarlo (un log de 20.000 visitas puede pesar 3 megas). Ejemplo de linea de un log 200.66.196.132 - - [03/Mar/2002235920 +0100] GET /directorio/16.html HTTP/1.1 304 - //.dominio.com/directorio/index.html Mozilla/4.0 (compatible MSIE 5.5 Windows 98 Win 9x 4.90) El formato de los
logs cambia dentro de cada servidor y dentro de cada servidor de la
configuracion del mismo. Cada vez que se produce una llamada a un archivo dentro de vuestra web el servidor escribira una linea
como esta. Cada visita cada HTML cada imagen dentro de ese HTML generara una linea. Es esta redundancia de informacion lo que hace que el log sea bastante dificil de manejar en bruto. Aclaración de cada fundamento dentro del log 200.66.196.132 I.P. del usuario (numero de identificacion del ordenador desde el que el usuario accede) - Usuario - para sites con identificacion - Password [03/Mar/2002235920 +0100] Fecha GET /directorio/16.html HTTP/1.1 Archivo pedido 304 ID de contestacion (2xx es OK | 3xx son de redirecion | 4xx son de autentificacion | 5xx son de
errores de servicio) - Numero de bytes mandados //.dominio.com/directorio/index.html Pagina desde la que se pide el archivo Mozilla/4.0 (compatible MSIE 5.5 Windows 98 Win 9x 4.90) Informacion sobre version del navegador terminal del usuario... 2. Como extraer informacion. Excel puede ser un primer paso muy provechoso. Extraer informacion de un log de visitas en crudo usando una dispositivo
como excel no es sencillo y muestra muchos dificultades pero nos puede ayudar a comprender mejor
como funciona el proceso de remuestracion de un log. Un primer paso es descartar la informacion redundante. Las peticiones de graficos hojas de estilo flash... pueden tener su utilidad pero para considerar el trafico de vuestra web los documentos HTML seran la referencia valida. Elimando las lineas que no nos interesan el dimension del archivo se puede reducir hasta x6 (un archivo de 20 megas paso a 3 eliminando las lineas de informacion no util). Al final de este producto se incluyen enlaces a proyectos que nos pueden ayudar a limpiar el log. Teniendo un archivo limpio podemos importarlo en Excel. A la hora de abrir un log Excel muestra un wizard que nos ayudara a tabular la informacion formando un documento con la informacion separada por celdas. Excel muestra una limitacion de unas 65000 filas. Dentro de Excel ordenaremos la informacion para extraer conclusiones sobre nuetro log. La idea de abrir un log en crudo necesita dedicacion y algo de tiempo pero nos ayudara a comprender de manera mas clara la inmaneracion que estamos manejando y
como solicitar los frutos que realmente nos ayudaran a mejorar vuestro site. Como opcion siempre podemos disponer de cierta aplicacion de analisis de logs. Disponibles en una amplia gama (gratuitos de pago caros baratos buenos malos....) el uso de estas dispositivos suele solicitar algo de dedicacion para poder extraer los datos en un formato que nos ofrezca frutos validos. Por lo comun todos los fabricantes proporcionan un tiempo de prueba o versiones demo con lo que podemos comdetener antes de comprar. Al final de este producto se ofreceran ciertas recomendaciones. 3. Que realizar con los frutos. Presentacion de
datos pruebas confirmar creencias. Para evaluar los frutos de nuestor log debemos comdetener. Lo mas usual es comdetener los datos de manera interna viendo la evolucion en el tiempo (comparando el numero de visitas mes a mes numero de paginas vistas duracion de las visitas). Esta comparacion nos dara una idea sobre la evolucion del site como cambios en la portada pueden afectar al numero de paginas vistas reduccion del peso del site y la evolucion de tiempo de permanencia etc... A la hora de comdetener debemos seleccionar fundamentos que presenten equivalencias. A fraccion de comdetener valores absolutos en distintos periodos de tiempo debemos ser capaces de comdetener los frutos de paginas parecidas. Paginas de menu tarjetas de articulo formularios... deben ser extraidas del log para ver informacion sobre el tiempo de permanencia siguente
pagina pagina de referencia etc... Esta comparacion resultara mas sencilla cuanto mas homogeneo sea vuestro site (ya que podremos aislar las variables). Un
ejemplo facil de comparacion es crear X plantillas de frutos de busquedas arrojar las paginas en el site y estudiando el log
identificar virtudes y debilidades en los distintos modelos. Otra manera de utilizar el log es para monitorizar campañas. Verificar la eficacia de una oferta comparacion de articulos... el log es una fuente de inmaneracion valida para poder hacer test de manera rapida y economica en el desarrollo de articulos. Al ser inmaneracion que se colecta sin ser solicitada de manera directa muestra algo mas de validez que datos recogidos debajo formularios o encuestas. El ser capaz de representar los datos de manera comprensible para vuestra audiencia es un paso muy significativo para presentar la validez del sistema y poder justificar el desarrollo de esta fuente de inmaneracion. Usar capturas de pantalla. Un asunto que tienen los proyectos que consideran los logs es que no enlazan de manera visual los frutos con las pantallas de vuestra web. Para ello a la hora de mostrar los frutos se deben usar capturas de pantalla y graficas de tal manera que se puedan ver las transformaciones en la web y el fruto que han generado. Informacion visual. En previos productos hemos explicado como utilizar graficas para mejorar la representacion de
datos. Ahora poseemos la fuente de informacion idonea para crear representaciones que ayudaran a comprender y considerar las mejoras y cambios dentro de vuestro web asi como de la informacion expuesta. Ejemplo de representacion de un path. Los path de un usuario a traves de nuesta web son complicados de identificar y remuestrar. Formando un frame con thumbnails con las paginas vistas mientras la visita señalando el tiempo de estancia en cada pagina y enlazando estos thumbnails a la pagina real (en el frame inferior) podemos crear un sistema bastante facil que muestra la inmaneracion de manera clara y provechoso ya que cualquier persona puede recrear la visita del usuario. Comparacion de menus. A la hora de comdetener modelos debemos ser capaces de unir la informacion con el artículo. En este
ejemplo se representan los hits en cada enlace a modo de grafica de tarta. En la mitad sobresaliente se representan los 3 enlaces y su distribucion de hits. En la mita inferior se compara la eficacia en hits de los 2 banners (texto Vs. telefono). En el lateral se compara la porción de hits de los enlaces en texto frente a los banners graficos. Antes de arrojar una campaña nacional un test en la web te puede ayudar a confirmar creencias pulir ideas... Distribuir la inmaneracion de manera publica. Ya sea a traves de la intranet o en memos es significativo que el personal involucrado en el programa conozca los datos del log de visitas. Tambien es significativo aclarar la validez de los datos y que inmaneracion se puede extraer de ellos. Distinto departamentos pueden descubrir nuevas utilidades (conocer que puestos de esfuerzo son los mas vistos preguntas mas frecuentes...) debe servir como aliciente y meta. 4. El analisis de log no es una ciencia exacta (pero se acerca). Como todo metodo de recogida de informacion el log muestra una toleracion en su exactitud. El principal asunto que tiene el log es que nos puede dar menos visitas de las que realmente se estan produciendo. La
cache (del navegador o del servidor proxy) haran que multiples visitas cuenten como una unica vista y que movimientos de avance y retroceso puedan no quedar registrados en el log. El otro asunto es el no poder contar con la velocidad de conexion del usuario. Al no tener esta referencia el tiempo de conexion se convierte en un parametro algo incierto. Del tiempo de conexion cuanto se dedica a la bajada de datos y cuanto a tiempo de lectura? Dificil de adivinar pero de nuevo la comparacion nos deberia dar determinado indice sobre el que poder crear una referencia. Estos dificultades estan comentados de manera precisa en este producto. 5. Agradecimientos y algunos enlaces de interes. Agradecimientos a Colman Lopez por su ayuda a la hora de preparar este producto y a Jose Manuel Suarez y Jeff Miller por la informacion aportada. Enlaces de interes Para descartar las lineas dentro del log que no nos interesan debemos utilizar un editor del estilo KEDIT ($159) (permite abrir cualquier documento de texto y hacer eliminaciones de lineas segun parametros). Jeff Miller desarrollo una aplicacion (.zip 1.5 Mgs) para descartar lineas. Esta extendido usando director y en el ZIP puedes descubrir la aplicacion en si y el archivo director para adaptar el
codigo y ajustarlo a tus necesidades. La aplicacion es un es
caso lenta por que no modifica el archivo original si no que crea uno nuevo a dividir del log original. Otra caracteristica es que el archivo y la aplicacion deben residir en el mismo directorio.