Google Analytics thu thập thông tin như thế nào?

Posted on 09/02/2010

0


Khi đã hiểu rõ các khái niệm visit, pageview, visitor và các cookie rất cơ bản mà GA dùng như  utma, utmb, utmc … giờ là lúc tìm hiểu rõ hơn cách mà GA thu thập thông tin và truyễn dữ liệu từ trình duyệt của bạn về đến server của GA.

Nền tảng cho các bảng báo cáo trên công cụ Google analytics –  Gif request

Mỗi lần bạn xem 1 pageview, đoạn mã GA trên trang đó sẽ chỉ thị cho trình duyệt gửi đến server GA yêu cầu 1 file gif:

quá trình truyền dữ liệu của Google Analytics từ trình duyệt đến server

quá trình truyền dữ liệu của Google Analytics từ trình duyệt đến server

–         yêu cầu này có dạng là 1 query string, thực chất các thông tin trên trình duyệt, pageview, … được bỏ trong cái “gói” query string này đưa cho server.

–         cái file gif kia có tên là __utm.gif, thực chất chỉ là 1 file ảnh 1 pixel trắng trơn nhỏ xíu, mang tính hình thức, mục đích chính là gửi được thông tin bỏ trong query string kia về cho server của GA.

Như thế mỗi lần bạn xem 1 trang trên 1 website hay thực hiện 1 event, GA server sẽ nhận được 1 “gói” thông tin đơn lẻ và trữ  chúng trong log file của GA ( Xem tiếp bài Cách hoạt động của GA)

Cấu trúc của query string – Gif request

Giờ ta hãy khám phá cấu trúc của 1 query string tiêu biểu cho 1 yêu cầu __utm.gif . Nói chung nó khá dài và rối rắm:

http://www.googleanalytics.com/__utm.gif?

utmwv=4.6.5&utmn=1295494263&utmhn=vnexpress.net

&utmcs=UTF8&utmsr=1280×1024&utmsc=32bit&utmul=enus&utmje=1

&utmfl=10.0%20r32&utmdt=VnExpress%20%20Daily%20News

&utmhid=1704287136&utmr=&utmp=%2FGL%2FHome%2F

&utmac=UA2493461&utmcc=__utma%3D139601012.1791446639.

1258078822.1265003521.1265702727.%3B%2B

__utmz%3D139601012.1265003521.7.3.utmcsr%3Dfacebook.com

%7Cutmccn%3D(referral)%7Cutmcmd%3Dreferral%

7Cutmcct%3D%2Fhome.php%3B

Mới nhìn cái url này trông rất “ngộp”, nhưng hãy cố nhìn lại 1 lần nữa và tách ra từng phần, bạn sẽ thấy nó khá đơn giãn:

Đầu tiên là có 1 yêu cầu từ http://www.google-analytics.com/__utm.gif . Kế tiếp bạn sẽ thấy liệt kê của 1 loạt các thông số utm và nội dung của chúng. Dùng Firebug để khảo sát ta sẽ thấy rõ như sau:

Utmac UA-2493461

Utmcc __utma=139601012.1791446639.1258078822.1265003521.1265702727.8;

+__utmz=139601012.1265003521.7.3.utmcsr=facebook.com|

utmccn=(referral)|utmcmd=referral|utmcct=/home.php;

utmcs UTF-8

utmdt VnExpress - Daily News

utmfl 10.0 r32

utmhid 1704287136

utmhn vnexpress.net

utmje 1

utmn 1295494263

utmp /GL/Home/

utmr -

utmsc 32-bit

utmsr 1280x1024

utmul en-us

utmwv 4.6.5

Giải thích 1 số thông số gắn trong Gif request:

Utmac = account string, là số tài khoản mà chủ website đăng ký nhận báo cáo của GA

Utmcc = các giá trị của cookie. Thông số này sẽ gửi tất cả các cookie trên trang.

Utmdt = tiêu đề của trang (title meta tag)

Utmfl = flash version

Utmhn = host name

Utmje = cho biet trình duyệt có đang mở java không. 1 là có

Utmn = unique ID được tạo ra cho mỗi Gif request để tránh trường hợp caching Gif image

Utmp = trang hiện tại

Utmsc = screen color depth

Vào Google Analytics code để xem toàn bộ danh sách và giải nghĩa.

Ngoài các dữ liệu chứa bên trong Gif request, bản thân mỗi Gif request đều có 1 số thông tin được ghi nhận trên log file của server mà GA có thể tổng hợp được như thời gian server thực hiện mỗi Gif request.

Như vậy toàn bộ các dữ liệu trên sẽ được ‘cất’ ngay ngắn vào trong bộ dữ liệu khổng lồ của GA, phục vụ cho việc xử lý dữ liệu và báo cáo khi người chủ website yêu cầu GA báo cáo. Muốn biết quá trình tổng hợp, xử lý dữ liệu như thế nào bên trong nhà máy GA để xuất ra bản báo cáo, mời bạn xem lại bài này:

Cách hoạt động của Google Analytics