Phân tích hành vi khán giả truyền hình: Big data không hoàn hảo như bạn nghĩ!
Người người nhà nhà nói về lợi ích của big data trong quá trình phân tích dữ liệu. Tuy nhiên, liệu đây là một cách “thập toàn thập mỹ” hay vẫn là một con dao hai lưỡi? Hãy đi sâu phân tích những ưu và nhược điểm của big data để có cái nhìn đa chiều hơn.
* Nội dung bài viết được lược dịch từ tựa blog “Need to know: The pros and cons of big data in audience measurement” của Nielsen.
Big data là gì?
Trong truyền thông tuyến tính (linear media), big data (dữ liệu lớn) ám chỉ đến 2 loại dữ liệu thu được từ hệ thống phát chương trình cho người xem:
- Return-path data (RPD) thu được từ các đầu hộp truyền hình hoặc vệ tinh (như Dish hoặc DirecTV).
- Automatic content recognition (ACR) thu được từ các TV thông minh kết nối internet (như TV Samsung hoặc TV Vizio).
Thay vì ghi nhận hành vi chuyển kênh, công nghệ ACR quan sát những hình ảnh đang được chiếu trên TV. Những hình ảnh này đóng vai trò như “dấu vân tay”, dùng để đối chiếu với một thư viện “dấu vấn tay” lớn để xác định hình ảnh vừa ghi nhận thuộc chương trình hay quảng cáo nào. Các hình ảnh sẽ được ghi nhận cùng với mốc thời gian cụ thể để biết chính xác cảnh nào của chương trình hoặc quảng cáo đang được phát.
Bộ dữ liệu RPD sẽ ghi nhận hành vi và thời gian chuyển kênh thông qua đầu hộp truyền hình. Những dữ liệu này sẽ được so sánh với lịch chiếu trên TV để xác định tại thời điểm đó người xem đang xem chương trình nào. Kết hợp thêm với dữ liệu từ nhà cung cấp dịch vụ quảng cáo, công ty nghiên cứu sẽ xác định được hộ gia đình đó đang xem quảng cáo nào.
Trong hai trường hợp trên, người xem cho phép thu thập dữ liệu trên thiết bị của họ. Vậy nên việc thu thập dữ liệu ở đây có tính hợp tác cao, đơn vị nghiên cứu không chỉ đo lường hành vi của người xem mà còn gợi ý những tính năng hỗ trợ phù hợp dựa trên dữ liệu người xem cung cấp.
Tại sao big data lại cần thiết?
Lúc trước, khi xem TV mọi người chỉ có một số ít kênh để chọn nên những chương trình có thể đạt tỉ lệ rating lên đến 60%. Còn bây giờ, con số đó là “không tưởng” trong một thế giới phân mảnh hơn rất nhiều và mọi người có một danh sách “vô tận” các chương trình để chọn xem.
Việc có nhiều kênh hơn là điều tốt cho người xem nhưng sẽ gây khó khăn cho người phân tích nếu sử dụng dữ liệu bảng. Cụ thể, một bảng điều tra toàn quốc với 101 nghìn người thì sẽ có khoảng 80 hộ gia đình xem một chương trình TV với tỉ lệ rating 0.2. Trong 80 hộ gia đình này, chắc chỉ có 1 hộ sống ở thành phố lớn. Vậy nên việc lấy mẫu hết 80 hộ gần như là không thể. Khi đó big data sẽ là lời giải cho bài toán trên vì có tới hàng chục triệu thiết bị đang được đo lường và thu thập dữ liệu. Dùng big data sẽ giúp các công ty nghiên cứu có thể báo cáo hành vi sử dụng TV ở mức độ chi tiết hơn (more granular), đặc biệt với những chương trình ít người xem.
Nhưng bất ngờ là big data, trên thực tế, không được thiết kế để phục vụ việc đo lường khán giả truyền hình. Vì sao?
1. Big data không có tính đại diện
Các đơn vị mua và bán gói truyền thông cần những giải pháp đo lường phản ánh được sự đa dạng của dân số về: độ tuổi, chủng tộc, tôn giáo và các dữ liệu quan trọng khác về nhân khẩu, hành vi cũng phải được thu thập.
Nhưng với big data, độ lớn của mẫu lại không đảm bảo tính đại diện. Khi Nielsen phân tích số hộ gia đình trong bảng điều tra truyền hình quốc gia của mình, họ phát hiện những hộ gia đình dùng bộ dữ liệu RPD thường lớn tuổi hơn và ít đa dạng chủng tộc hơn so với tổng dân số (gần như không có chủ hộ dưới 25 tuổi nào trong bộ dữ liệu RPD). Ngược lại, bộ dữ liệu ACR lại thiên về những người trẻ tuổi hơn so với trung bình dân số, và những hộ này có nhiều thành viên hơn trong gia đình. Sự chênh lệch này có thể được tạm che đi bằng cách sử dụng trọng số thống kê, nhưng nó không giải quyết được vấn đề thiếu dữ liệu về hành vi xem của tệp khán giả bị bỏ sót trong từng bộ dữ liệu.
Còn một điều tệ hơn là, khi sử dụng giải pháp đo lường chỉ theo RPD (thông qua đầu thu truyền hình) hoặc chỉ theo ACR (thông qua TV thông minh kết nối internet), công ty nghiên cứu sẽ mất dữ liệu của những hộ gia đình sử dụng sóng vô tuyến (over-the-air) hoặc sử dụng dịch vụ xem trực tuyến (streaming-only). Đây là hai tệp đang có xu hướng phát triển trong miếng bánh thị trường, lần lượt chiếm 15% và 19% số khán giả xem TV.
2. Big data không thể “nhìn thấy” được mọi hành vi xem
Kể cả có thu thập dữ liệu từ các hộ gia đình đại diện, hai bộ dữ liệu RPD và ACR không thể ghi lại hết dữ liệu từ các thiết bị truyền hình không phải TV thông minh. Những thiết bị này có thể chiếu những chương trình khác nhau cho các thành viên khác nhau trong nhà (ví dụ chiếu chương trình nấu ăn trong bếp, chương trình cho trẻ em ở phòng khách). Vậy nên big data không chỉ chưa đủ tính đại diện mà còn không mô tả được mọi hành vi xem có thể diễn ra trong một hộ gia đình.
Thêm một vấn đề nan giải đối với công ty nghiên cứu sử dụng bộ dữ liệu RPD là những hộp đầu thu vẫn hoạt động kể cả khi TV đã tắt. Hiện tượng này làm dữ liệu người xem “phình to” bất thường từ 145% đến 260% (tùy vào nhà cung cấp dịch vụ). Tuy có một số mô hình có thể dùng để “tạm vá” vấn đề này nhưng việc thiếu một điểm tham chiếu (chẳng hạn một bảng dữ liệu dựa trên lượng xem thực tế) khiến việc phát triển các phương pháp đo lường đúng trở nên khó khăn hơn.
Không chỉ RPD mà cả bộ dữ liệu ACR cũng không “thoát” được vấn đề chất lượng dữ liệu. Cụ thể, một số ứng dụng xem trực tuyến trên TV thông minh có thể chặn ACR ghi lại nội dung trên màn hình khi ứng dụng đang hoạt động. Điều này làm người dùng nghĩ màn hình TV đã tắt trong khi thực tế, nội dung đã bị ứng dụng chặn. Không những vậy, hầu hết các nhà cung cấp chỉ theo dõi một phần nhỏ trong toàn bộ các chương trình được chiếu. Trong một phân tích gần đây, Nielsen phát hiện các nhà cung cấp ACR hiện chỉ giám sát 31% tổng số kênh có sẵn và có 23% thời gian xem được ghi lại đến từ các kênh mà họ không giám sát. Việc không có “dấu vân tay” tham chiếu để so sánh, những lượt xem từ các kênh đó sẽ không được ghi nhận trong báo cáo.
3. Big data không biết được thông tin nhân khẩu của người xem
Nhà cung cấp RPD và ACR thu thập dữ liệu từ hàng triệu thiết bị nhưng họ không biết người đang xem là ai, trong khi đó chính là điều mà các nhà quảng cáo muốn biết.
Để bù đắp lỗ hổng này, nhà cung cấp RPD và ACR có thể hợp tác với các đối tác thứ ba về dữ liệu dân số. Những đối tác này duy trì một hồ sơ về thành phần dân số của mọi hộ gia đình trong quốc gia, và một công ty nghiên cứu sẽ cố gắng tìm ra ai đang xem cái gì từ tổng số dữ liệu chuyển kênh trong một hộ gia đình cụ thể và thành phần của hộ gia đình đó.
Ví dụ: Nếu hộ gia đình đang xem một chương trình trẻ em nghĩa là một đứa trẻ trong nhà đang xem nó. Nếu TV đang chiếu trận đấu đô vật thì có lẽ người xem là nam. Tuy nhiên, việc dự đoán mà không có điểm tham chiếu thực tế để hỗ trợ thuật toán máy học (machine learning) có thể gặp vấn đề. Dễ dàng thấy cách làm này sẽ không còn đủ độ tin cậy nếu số thành viên trong hộ gia đình tăng lên, đồng nghĩa với việc nó ảnh hưởng đến độ chính xác dữ liệu đối với các gia đình lớn, như những gia đình có nhiều trẻ em, có người da màu và người xem trẻ tuổi.
Vậy làm sao để khắc phục 3 hạn chế không nhỏ này của big data?
“Song kiếm hợp bích” với dữ liệu bảng
Một số công ty nghiên cứu như Nielsen phát triển phương pháp kết hợp cả big data và dữ liệu bảng để đo lường hiệu quả hơn. Cụ thể, khi phân tích dữ liệu RPD hoặc ACR, các công ty nghiên cứu này xác định hộ gia đình nào và thiết bị nào thuộc bảng điều tra của họ. Sau đó, họ sẽ so sánh giữa dữ liệu chuyển kênh với các hành vi xem khác (không ghi nhận bằng big data được) bằng các thiết bị đo của họ dành cho thu thập dữ liệu bảng. Sự kết hợp này giúp các công ty nghiên cứu xác định những điểm big data sai lệch so với thực tế và dựa trên đó để phát triển mô hình điều chỉnh phù hợp.
Cuối cùng, nên nhớ rằng điều quan trọng là nghiên cứu khán giả chứ không phải nghiên cứu các thiết bị. Không thể chối bỏ vai trò của big data như một công cụ bổ sung tuyệt vời cho các nhà nghiên cứu truyền thông. Dựa trên big data, các nhà nghiên cứu có khả năng làm các báo cáo chi tiết hơn bao giờ hết. Nhưng nó cũng là một con dao hai lưỡi khi vẫn chưa hoàn thiện, dữ liệu còn mang tính thiên vị (bias), và quan trọng nhất là khả năng đo lường hạn chế: nó ghi nhận dữ liệu chuyển kênh chứ không phải dữ liệu xem thực tế.
Vì vậy, để phát huy tiềm năng của big data, đơn vị nghiên cứu cần làm sạch dữ liệu, điều chỉnh và bổ sung thêm thông tin dân số liên quan. Đó chính xác là “sân chơi” nơi dữ liệu bảng xuất hiện. Không chỉ bù trừ cho big data, dữ liệu bảng ở quy mô quốc gia có thể cho ra những dữ liệu đào tạo (training data) chất lượng nhằm giúp thuật toán máy học (machine learning) hoạt động tốt nhất.
Theo Phương Quyên / Brands Vietnam
* Nguồn: Nielsen