Hệ thống thu thập dữ liệu của Social Listening Tool khủng và tinh vi đến mức nào?
Bài viết này là một trong series các bài viết cho thấy bức tranh thực sự về cách hoạt động của các social listening tool, đặc biệt là Buzzmetrics, một giải pháp lắng nghe và phân tích mạng xã hội đang được dùng để theo dõi các chiến dịch và thương hiệu quản lý bởi các tập đoàn lớn Coca-Cola, Unilever, Mead Johnson và các Agencies global như Ogilvy, Maxus, Leo Burnett, Phibious, Performics… tại Việt Nam.
Social media theo khái niệm của Social Listening không chỉ bao gồm mạng xã hội, mà còn là tất cả các phương tiện truyền thông cho phép tương tác nhiều chiều, trong đó bao gồm diễn đàn, báo điện tử (phần bình luận), blogs, các trang review đánh giá của nguời tiêu dùng như Foody và các phần đánh giá của các trang Ecommerce như Lazada hay Tiki.
Social Listening là một mô hình kinh doanh biến thể của ngành nghiên cứu thị trường. Và cũng giống như các quy trình nghiên cứu thị trường truyền thống, social media research cũng phải trải qua 5 giai đoạn:
- Thu thập dữ liệu
- Xuất dữ liệu
- Phân loại dữ liệu
- Phân tích dữ liệu
- Trình bày báo cáo nghiên cứu
Trong đó, Thu thập dữ liệu là bước đầu tiên trong quá trình thực hiện nghiên cứu trên social media. Hiện tại hệ thống của Buzzmetrics đang thu thập 1,141,412 trang fanpages trên Facebook và các mạng xã hội, 211,571 Facebook groups, 1,240 diễn đàn, 3,067 báo điện tử, 138,114 Youtube channels, 219,691 Instagram users, các trang Review và Ecommerce, với tốc độ xử lý hàng triệu thảo luận mỗi ngày. Việc thu thập dữ liệu toàn bộ thị trường là cần thiết và cho phép Buzzmetrics thực hiện các nghiên cứu về xu hướng và ngành hàng. Quy mô đầu tư về công nghệ và phần cứng của Social Listening tool tương đương với các search engines và càng ngày càng tăng theo thời gian.
Hiện nay có 2 phương pháp chính dùng để thu thập dữ liệu: API và Trang (Sites).
Thu thập dữ liệu bằng cổng giao thức lập trình (API)
Phương pháp này được áp dụng đối với các global social networks như Facebook, Google Plus, Youtube, Twitter , Instagram… trong đó các công cụ social listening sẽ kết nối với các API (Application Programming Interface – Giao diện lập trình ứng dụng) của các social networks và yêu cầu hệ thống trả về những bài viết có chứa keywords. Phương pháp này theo nguyên tắc cho phép lấy dữ liệu của toàn bộ social network, bao gồm các trang cá nhân, nhưng trên thực tế phụ thuộc vào sự hạn chế của các social networks này. Với việc Facebook hạn chế organic reach cho các chủ fanpage và các nhà quảng cáo, Facebook cũng không trả lại đầy đủ và nhất quán các bài viết cá nhân cho Social Listening tool qua API. Hiện tại không có một thống kê rõ ràng việc lấy dữ liệu bằng API có thể lấy được bao nhiêu % thảo luận.
Thu thập dữ liệu theo Sites
Hệ thống Buzzmetrics social listening sử dụng cơ chế thu thập dữ liệu theo trang (sites), trong đó hệ thống sẽ đi thu thập dữ liệu từ các nguồn dữ liệu theo trang như website báo điện tử, forum, Facebook fanpages, Youtube channels, Instagram pages,…. Phương pháp này giúp thu thập toàn bộ dữ liệu của các kênh được liệt kê. Việc thu thập dữ liệu được thực hiện bằng 2 cách: Tự động lan tỏa và Liệt kê danh sách trang (panel).
Thu thập theo phương pháp liệt kê trang:
Công đoạn xây dựng một social listening platform cho thị trường mới bắt đầu từ việc xây dựng một tổ hợp các trang fanpages mạng xã hội, báo điện tử, diễn đàn, blogs… của thị trường đó. Việc này thường tốn từ 6 tháng đến một năm. Từ danh sách các trang này, đội ngũ data team sẽ viết các con nhện (crawlers) để quét qua các trang liên tục và copy thảo luận người dùng về. Crawlers hành xử như một con người, tự động scan nội dung của trang, nhận điện đâu là bài viết (thread), nội dung của bài viết bao gồm bài viết đầu tiên (lead), tác giả (author), ngày giờ và các bình luận hay phản hồi (comments).
Khác với Search engine nhận diện toàn trang là một dòng dữ liệu, hệ thống Social Listening nhận diện mỗi comment là một dòng dữ liệu. Như hình minh họa dưới đây, bài viết này có 907 phản hồi, tương đương với hệ thống ghi nhận 908 dòng dữ liệu, hay 908 mentions, hay buzz, hay ý kiến người tiêu dùng. Crawlers chỉ có thể thấy những gì công chúng thấy, thu thập được những thảo luận để chế độ public, chứ không lấy được các thảo luận private, tuân thủ theo luật privacy. Tuy nhiên, crawlers có thể lấy được thảo luận trong closed Facebook group, bằng các đăng nhập bằng một member ID của group đó, nhưng việc này cần có sự đồng ý của admin của group.
Hệ thống thu thập toàn bộ dữ liệu có trong trang từ quá khứ đến hiện tại và liên tục quay lại cập nhật các dữ liệu mới tạo ra trên trang cứ 15 phút đến 1 tiếng một lần.
Phương pháp thu thập theo trang phụ thuộc vào 4 yếu tố: đường truyền internet, tốc độ trả dữ liệu của trang, sự nhận diện nội dung và cấu trúc trang của crawlers và khả năng ngăn chặn crawlers của trang. Các trang diễn đàn lớn thường có sự thay đổi về cấu trúc hàng năm nên khi crawlers khi gặp cấu trúc mới khác với thiết kế ban đầu thì sẽ dẫn đến việc thu thập bị gián đoạn. Đồng thời các publishers thường có cơ chế nhận diện và chặn việc thu thập dữ liệu của máy tính gây ảnh hưởng đến băng thông. Các crawlers cũng thường xuyên phải cập nhật và nhảy tính danh để vượt qua các cơ chế chặn này. Vì những lý do trên, việc thiếu hay gián đoạn dữ liệu là điều không thể tránh khỏi với các Social Listening tool nên ở Buzzmetrics, một đội ngũ lập trình viên data team phải làm việc liên tục để cập nhật crawlers, thực hiện các biện pháp xử lý ngoài tình huống chuẩn để đảm bảo đầy đủ dữ liệu cho khách hàng, đặc biệt trong các trường hợp chạy chiến dịch hay xử lý khủng hoảng.
Đây cũng là lý do chính các công cụ social listening nước ngoài hay các công cụ miễn phí như iSentia, Brandtology, Sysomos, Radiant6, mention.com không thể hoạt động hiệu quả ở Việt Nam do thường xuyên bị thiếu dữ liệu do việc thu thập danh sách sites không đủ, hoặc khi gặp một trong các vấn đề trên thì không có nhân sự để giải quyết ngay tức thì.
Thu thập trang tự động lan tỏa:
Việc thu thập trang tự động có thể được thực hiện bằng 2 cơ chế thông minh:
- Thu thập theo trend: Từ những chủ đề, xu hướng được nhắc đến nhiều nhất trên social media, hệ thống sẽ tự động phát hiện và thu thập các trang có chứa thảo luận về chủ đề đó. Ví dụ, khi có một sự kiện được báo chí đưa tin nhiều, hệ thống sẽ tự động phát hiện từ khóa về sự kiện đang được nhắc đến nhiều và đi khắp các phương tiện truyền thông xã hội để thu thập các trang có chủ đề thảo luận về từ khóa, bao gồm các trang Facebook, forums,…
- Thu thập theo cơ chế lan tỏa: Từ những trang/group đã thu thập được, hệ thống sẽ phát hiện và thu thập các page/group/user khác được trao đổi trong những trang này.
Việc thu thập theo trend và theo cơ chế lan tỏa là 2 quá trình được thực hiện đồng thời, đảm bảo cho các chủ đề đang được thảo luận nhiều trên social media luôn nằm trong hệ thống trong thời gian sớm nhất và dữ liệu đầy đủ nhất.
Công nghệ social listening cũng như công nghệ search engine, đó là mô hình tổng hợp dữ liệu thị trường. Một công cụ social listening phải lưu trữ dữ liệu tối thiểu 2 năm để phục vụ các mục đích nghiên cứu. Áp lực lưu trữ và xử lý dữ liệu cũng tăng theo thời gian vì thế khoản đầu tư vào hệ thống cơ sở hạ tầng phần cứng cũng là rất lớn và liên tục.
Để thảo luận với tác giả bài viết liên hệ NHUNG NGUYEN - Buzzmetrics Marketing and Communication Manager: [email protected]
Nếu bạn muốn sử dụng dịch vụ lắng nghe theo dõi thương hiệu của bạn trên mạng xã hội, liên hệ PETER NGUYEN - Buzzmetrics Managing Director: 0977 550 665 hoặc [email protected]
Buzzmetrics là một giải pháp lắng nghe và nghiên cứu mạng xã hội (Social Listening) toàn diện nhất Việt Nam, có độ phủ toàn bộ các mạng xã hội trên thế giới và trong nước, bao gồm facebook, twitter, youtube, google+, instagram, linkedin, zing, zalo, noi.vn, hơn 1000 forums, 8000+ báo điện tử và blogs. Buzzmetrics được tin dùng bởi Coca-Cola, Samsung, Unilever và là đối tác chiến lược của các agencies hàng đầu như Ogilvy, Phibious, Leo Burnett, Maxus, Sofresh… Sự khác biệt của Buzzmetrics nằm ở khả năng nghiên cứu chuyên sâu theo từng ngành hàng, mang lại cho các thương hiệu các Insight chất lượng và thiết thực dựa trên phản hồi trong thời gian thực của người tiêu dùng.