Chiến lược dữ liệu của Spotify
Doanh nghiệp có thể học hỏi gì từ cách Spotify tổ chức quy trình công nghệ, xây dựng văn hóa, ra quyết định dựa trên dữ liệu (data-driven)?
Bài viết được lược dịch từ những chia sẻ về mặt kỹ thuật công nghệ đăng trên Engineering Blog của Spotify, gồm 2 phần: Data Platform Explained Part I, Data Platform Explained Part II.
Tầm quan trọng của dữ liệu đối với mô hình kinh doanh
Mỗi mô hình kinh doanh đều có những nhu cầu riêng về dữ liệu, từ cách thức lưu trữ đến xử lý. Đối với các doanh nghiệp ra đời và kinh doanh hoàn toàn dựa trên công nghệ như Spotify (và các mô hình kinh doanh “đăng ký thuê bao” tương tự như Netflix, Fonos, Elsa, Zing MP3), hiểu dữ liệu có thể coi là yếu tố sống còn, và khai thác tốt dữ liệu là chiến lược để tạo ra sự khác biệt.
Tại sao?
Đối với các doanh nghiệp ra đời và kinh doanh hoàn toàn dựa trên công nghệ như Spotify, hiểu dữ liệu có thể coi là yếu tố sống còn, và khai thác tốt dữ liệu là chiến lược để tạo ra sự khác biệt.
Những doanh nghiệp kiểu này thường sở hữu rất nhiều dữ liệu trong quá trình người dùng sử dụng nền tảng. Đơn cử như Spotify, mỗi ngày nền tảng này ghi nhận đến 1,4 nghìn tỷ điểm phát sinh dữ liệu.
Vì thế, dữ liệu đóng vai trò cốt lõi trong việc giúp doanh nghiệp hiểu rõ hành vi và thói quen của khách hàng, từ đó tối ưu hóa trải nghiệm và tăng doanh thu. Ngược lại, nếu không biết cách tận dụng hiệu quả kho dữ liệu khổng lồ này, các doanh nghiệp sẽ bỏ lỡ một lợi thế cạnh tranh lớn, như “ngồi trên một mỏ vàng nhưng không biết cách khai thác”.
Mọi mô hình kinh doanh, dù là trực tuyến (online) hay có kết hợp truyền thống (offline), đều có một bộ dữ liệu chuẩn dùng cho các hoạt động đo lường và tối ưu. Chẳng hạn, một bộ dữ liệu chuẩn trên các website/ứng dụng có thể gồm các yếu tố như:
- Lượng người truy cập, ghé thăm.
- Thời gian, thói quen và hành vi của lượt truy cập.
- Loại nội dung, trang/màn hình phổ biến.
- Nhân khẩu học, chân dung của người dùng (họ là ai, đến từ đâu, thuộc phân khúc nào…).
- Các hành động phổ biến như xem trang, thoát trang, bỏ giỏ hàng, đăng ký, thực hiện giao dịch…
Thông thường, các nền tảng đo lường dữ liệu của bên thứ ba sẽ cung cấp công cụ hỗ trợ để thu thập và phân tích những dữ liệu kể trên, như Google Analytics hoặc MixPanel.
Những bộ dữ liệu chuẩn này tuy cần thiết nhưng chỉ phản ánh một phần thông tin cơ bản của một nền tảng. Vì vậy để tạo lợi thế cạnh tranh, mỗi doanh nghiệp cần tự phát triển bộ dữ liệu đặc thù riêng phù hợp với mục tiêu kinh doanh và tối ưu các hoạt động tiếp cận người dùng.
Bộ dữ liệu đặc thù của Spotify và các tình huống ứng dụng
Mô hình kinh doanh app nội dung như Spotify thường có 2 luồng doanh thu phổ biến:
- Subscription (mô hình đăng ký): Người dùng trả phí hàng tháng để sử dụng dịch vụ, ví dụ, gói Premium của Spotify giúp người dùng nghe nhạc không quảng cáo.
- Ad-supported monetization (mô hình kiếm tiền từ quảng cáo): Ứng dụng cung cấp dịch vụ miễn phí và kiếm lợi nhuận thông qua việc hiển thị quảng cáo cho người dùng.
Với nhu cầu “gia tăng trải nghiệm người dùng” trong app, Spotify có thể cần phải làm tốt hơn việc “cá nhân hóa trải nghiệm” (User Personalization), như đề xuất bài hát tiếp theo tốt hơn, giới thiệu những nghệ sĩ mới, hiển thị các quảng cáo phù hợp hơn… Để làm được điều này, bên cạnh bộ dữ liệu chuẩn, họ sẽ cần phải thu thập thêm một số dữ liệu đặc thù như Average Listen/Watch Time (thời gian trung bình tiêu thị nội dung), Content Completion Rate (tỉ lệ hoàn thành nội dung), Content Skipping Rate (tỉ lệ bỏ qua nội dung)...
Ngoài giữ chân người dùng, mô hình của Spotify đòi hỏi nền tảng phải thu hút được nhiều đối tác quảng cáo. Để làm được điều đó, Spotify có thể tận dụng dữ liệu người dùng để chia sẻ thông tin thú vị về hành vi, thói quen nghe cho thương hiệu. Điều này cho phép nhãn hàng tùy chỉnh chiến lược quảng cáo sao cho phù hợp nhất với đối tượng mục tiêu, từ đó tăng hiệu quả quảng cáo của thương hiệu và giúp Spotify bán được nhiều vị trí quảng cáo hơn.
Bên cạnh những ứng dụng dữ liệu để tối ưu doanh thu, mỗi bộ phận phòng ban bên trong Spotify cũng được tiếp cận để ra quyết định dựa trên dữ liệu.
Với một “biển” dữ liệu thô nhận về hàng ngày, nền tảng này sẽ chuyển hóa thành các bộ dữ liệu “sẵn sàng sử dụng” và trực quan hóa thông qua dashboard. Các bảng biểu được xây dựng từ dữ liệu thô giúp các phòng ban và bộ phận dễ dàng tìm ra những thông tin giá trị (insight). Sau đó, từng bộ phận sẽ đưa ra các hành động cụ thể phù hợp với mục tiêu của mình.
Đối với Ban Giám đốc, dữ liệu giúp họ theo dõi các chỉ số kinh doanh cốt lõi như doanh thu, tăng trưởng, lợi nhuận. Ngoài ra, họ cũng cần giám sát các số liệu liên quan đến người dùng như tổng số lượng thành viên trả phí, tỉ lệ rời bỏ (churn-rate), doanh thu định kỳ dự kiến theo tháng và năm (Monthly/Annual Recurring Revenue – MRR và ARR) và các luồng doanh thu khác nhau.
Đối với bộ phận sản phẩm, các chỉ số như số lần mở ứng dụng, thời gian trên app, tỷ lệ hoàn thành một bài nhạc, số lần báo lỗi, hay thời gian tải nhạc (Buffering Rate) đóng vai trò quan trọng trong việc cải thiện trải nghiệm người dùng. Ngoài ra, dữ liệu cũng được sử dụng để phân nhóm người dùng và thử nghiệm các tính năng mới (Experimentation).
Ví dụ, khi Spotify ra mắt một tính năng mới, họ có thể thử nghiệm bằng cách đặt tính năng này ở nhiều vị trí khác như trên thanh điều hướng (trên, dưới, giữa) để tìm hiểu xem vị trí hiển thị có ảnh hưởng đến nhu cầu sử dụng tính năng mới này không. Nếu người dùng thật sự có nhu cầu, có thể họ sẽ cố gắng tìm tính năng này, dẫn đến sự ổn định qua nhiều thử nghiệm. Điều này sẽ giúp giữ ưu tiên các tính năng thực sự quan trọng. Những thử nghiệm này sẽ được triển khai trên một nhóm người dùng nhỏ trước khi áp dụng toàn diện, giúp giảm rủi ro và tối ưu hóa sản phẩm.
Đối với bộ phận Sales & Marketing, họ thường sử dụng dữ liệu người dùng để “đóng gói” thành các insight hữu ích và tạo ra các giải pháp quảng cáo dựa trên bối cảnh cụ thể. Những thông tin như hành vi nghe nhạc, sở thích cá nhân, và thời điểm sử dụng ứng dụng giúp các thương hiệu tùy chỉnh thông điệp quảng cáo sao cho hiệu quả nhất.
Ví dụ, Spotify có thể giúp nhãn hàng xây dựng các chiến dịch quảng cáo tương thích với thói quen nghe nhạc của từng nhóm người dùng, tăng giá trị cho cả khách hàng và chính nền tảng quảng cáo của Spotify.
Ngoài ứng dụng trong phạm vi nội bộ, dữ liệu còn hỗ trợ các chiến dịch tiếp thị bên ngoài của nền tảng. Một ví dụ điển hình là việc Spotify sử dụng dữ liệu để tiếp cận lại người dùng miễn phí chưa nâng cấp lên gói Premium. Họ phân tích hành vi người dùng để thiết kế quảng cáo phù hợp, khuyến khích đăng ký dịch vụ trả phí.
Có thể thấy việc tận dụng dữ liệu hiệu quả giúp Spotify cải thiện mọi khía cạnh từ sản phẩm, quảng cáo, đến chiến lược marketing. Điều này không chỉ tối ưu hóa trải nghiệm khách hàng mà còn tăng trưởng doanh thu và nâng cao giá trị cạnh tranh của nền tảng.
Thách thức khi xây dựng nền tảng dữ liệu
Mọi doanh nghiệp có lẽ đều biết việc ứng dụng dữ liệu sẽ có ích cho nhiều phòng ban, nhiều hoạt động từ nội bộ đến bên ngoài. Tuy nhiên, công tác xây dựng và quản lý một nền tảng dữ liệu chưa bao giờ đơn giản, đặc biệt với Spotify.
Đầu tiên, vấn đề đến từ việc phải xử lý khối lượng dữ liệu khổng lồ. Cụ thể, Spotify ghi nhận tới 1,4 nghìn tỷ điểm dữ liệu mỗi ngày từ hàng trăm triệu người dùng trên toàn thế giới. Việc thu thập và xử lý lượng dữ liệu lớn này đòi hỏi hệ thống phải hoạt động liên tục, ổn định và hiệu quả.
Chưa dừng lại ở đó, Spotify cần đảm bảo dữ liệu thu thập luôn đạt chất lượng cao, không có sai sót. Nếu dữ liệu không “sạch” hoặc không thống nhất, việc phân tích và ứng dụng sẽ không hiệu quả, thậm chí gây lãng phí tài nguyên.
Không chỉ “gặp khó” vì sở hữu lượng dữ liệu khổng lồ, trong quá trình đi từ một ứng dụng nghe nhạc cơ bản đến một nền tảng truyền phát nội dung toàn diện như hôm nay, Spotify phải giải quyết bài toán chuyển toàn bộ hệ thống (migration) dữ liệu cũ sang một hệ thống mới.
Điều này đòi hỏi nền tảng phải đảm bảo dữ liệu cũ và mới được tổ chức một cách tương thích cả ở phần backend (hạ tầng kỹ thuật) lẫn frontend (trải nghiệm người dùng). Ngoài ra, nền tảng phải duy trì tính liên tục của dữ liệu thu thập, kể cả trong quá trình chuyển đổi, tránh làm mất mát hoặc đứt gãy dòng dữ liệu.
Việc thu thập dữ liệu chỉ là bước đầu. Thách thức lớn hơn nằm ở năng lực tận dụng dữ liệu hiệu quả. Spotify cần phát triển các giải pháp giúp dữ liệu trở nên dễ sử dụng và phù hợp với mục tiêu của các bộ phận khác nhau. Ví dụ, nhóm phát triển sản phẩm cần dữ liệu để cải thiện tính năng, trong khi bộ phận quảng cáo sử dụng dữ liệu để phân tích hành vi người dùng và xây dựng chiến dịch.
Cuối cùng, ở cấp độ cao hơn, dữ liệu cần sẵn sàng để phục vụ các công nghệ tiên tiến như trí tuệ nhân tạo (AI) và máy học (Machine Learning). Dữ liệu phải được tổ chức theo cách có thể hỗ trợ các thuật toán học sâu. Đồng thời, nền tảng dữ liệu phải đủ linh hoạt để tích hợp các công cụ AI, giúp tự động hóa quy trình phân tích và đưa ra quyết định.
Cách xây dựng nền tảng dữ liệu của Spotify
Sau khi đã xác định các thách thức và nhiệm vụ quan trọng trong quá trình tổ chức một nền tảng dữ liệu, hãy khám phá cách Spotify được xây dựng nền tảng dữ liệu của mình, với các bước chính được cô đọng như ảnh minh họa sau:
Đầu tiên, mọi hành vi của người dùng trên ứng dụng sẽ được ghi nhận như những dữ liệu sự kiện (Event Delivery). Các dữ liệu này sẽ được đưa vào bên trong nền tảng dữ liệu với ba giai đoạn chính, gồm:
- Tổ chức và quản trị dữ liệu (Data Management)
- Xử lý dữ liệu (Data Processing)
- Xây dựng khả năng tương tác của dữ liệu (Interoperability)
Trong đó, ở mỗi bước lại có những quy trình nhỏ hơn cùng các lưu ý riêng. Bây giờ, hãy thử tưởng tượng Spotify sẽ làm gì đầu tiên khi có dữ liệu từ người dùng để tổ chức được các kho dữ liệu có thể sử dụng?
1. Thu thập dữ liệu
Từ quý IV/2016 đến quý I/2019, khối lượng dữ liệu trung bình (TB) hàng ngày của Spotify trong quá trình ETL đã tăng đến 70 (TB) dữ liệu cần xử lý hàng ngày, tương đương với gần 8 triệu sự kiện diễn ra mỗi giây.
ETL là quá trình kết hợp dữ liệu từ nhiều nguồn khác nhau để tạo thành một kho dữ liệu lớn (data warehouse), viết tắt của các bước: Extract (trích xuất), Transform (chuyển đổi) và Load (tải). Quá trình ETL và lưu trữ dữ liệu là một nhiệm vụ phức tạp và nhiều rủi ro. Một trong những rủi ro dễ nhận thấy là mất dữ liệu, đặc biệt khi có những sự kiện không được lưu trữ đầy đủ, ảnh hưởng đến trải nghiệm người dùng.
Ví dụ, khi người dùng mở ứng dụng, ưu tiên của Spotify là phản hồi nhanh và đưa người dùng vào giao diện ứng dụng, thay vì chờ đợi dữ liệu được lưu trữ xong trên hệ thống. Điều này có thể dẫn đến tình huống mất dữ liệu nếu kết nối mạng bị ngắt quãng hoặc máy chủ gặp sự cố, khiến dữ liệu không được ghi nhận.
Tiếp theo về vấn đề đồng bộ, cần đảm bảo sự tương thích giữa hai hệ thống mới và cũ. Đơn cử như những tên sự kiện, trạng thái dữ liệu, nơi lưu trữ ở hệ thống cũ cần được thay đổi sao cho phù hợp với quy chuẩn ghi nhận dữ liệu ở hệ thống mới.
Ví dụ, các sự kiện cũ trước đây có thể được đặt tên là “play”, nhưng khi chuyển đổi sang hệ thống mới với nhu cầu mới, có thể được phân biệt thành “play_music” và “play_podcast”, hoặc cần phải thêm một thuộc tính “content” đối với sự kiện “play”.
Quan trọng hơn, Spotify không thể tạm dừng ứng dụng để thực hiện chuyển đổi. Tất cả công việc phải diễn ra trong khi hệ thống vẫn vận hành, tương tự như “thay bánh xe trên một chiếc xe buýt đang chạy”. Nền tảng này vừa phải chuyển hệ thống vừa tiếp tục ghi nhận dữ liệu mới hàng ngày và xử lý nó để phục vụ các hoạt động kinh doanh.
Trở lại với quá trình thu thập dữ liệu, khi một sự kiện phát sinh, nó sẽ được gắn nhãn (tag) và phân loại. Sau đó, dữ liệu tiếp tục được làm sạch, chuẩn hóa (clean & transform) theo yêu cầu của hệ thống để đảm bảo sự đồng bộ.
Ngoài ra, để tuân thủ các quy định bảo mật khác nhau ở từng khu vực Châu Âu hay tiêu chuẩn tại Mỹ, Spotify sẽ phải ẩn danh dữ liệu (Anonymization) bằng cách mã hóa để bảo vệ quyền riêng tư của người dùng. Bên cạnh đó, nền tảng này thiết lập các lệnh xóa dữ liệu tự động sau một thời gian nhất định, đồng bộ trên tất cả các hệ thống, từ ứng dụng đến máy chủ lưu trữ.
2. Lưu trữ và xử lý dữ liệu
Spotify vận hành một hệ thống quản trị dữ liệu (Data Management) với hơn 38.000 luồng xử lý (pipeline), các quy trình này được thực hiện theo giờ và theo ngày để đảm bảo dòng dữ liệu từ hàng triệu người dùng được ghi nhận, phân tích, và sử dụng hiệu quả. Tuy nhiên, với hệ thống khổng lồ này, Spotify đã phải thiết lập các chính sách quản trị dữ liệu rõ ràng nhằm đảm bảo sự nhất quán, minh bạch và bảo mật.
Thứ nhất, cần đảm bảo mọi dữ liệu được làm sạch và chuẩn hóa để những bộ phận cần dùng có thể hiểu và tìm kiếm được (Searchability). Spotify phải đảm bảo các giá trị này được chuẩn hóa để dễ dàng tìm kiếm và phân tích.
Thứ hai, khả năng truy xuất dữ liệu (Traceability). Mỗi dữ liệu đều phải ghi nhận nguồn gốc đến từ hành vi nào (nhấn nút play, tìm kiếm, hoặc thêm bài hát vào danh sách phát), đồng thời xác định chính xác các thuộc tính liên quan đến sự kiện.
Thứ ba, đảm bảo việc lưu trữ và bảo lưu dữ liệu (Retention) trong một giai đoạn sao cho sử dụng hiệu quả tài nguyên và không vi phạm các quy định bảo mật. Chẳng hạn theo quy định của một khu vực, Spotify không được lưu trữ dữ liệu người dùng quá một năm. Vậy nên sau khoảng thời gian này, dữ liệu phải được chuyển đổi thành dữ liệu ẩn danh, xóa đi, hoặc dữ liệu thứ cấp.
Cuối cùng, kiểm soát quyền truy cập để dữ liệu chỉ được truy cập bởi đúng người, đúng bộ phận, và đúng mục đích (Access Control). Spotify phân cấp quyền truy cập dựa trên vai trò và nhu cầu của từng nhóm trong tổ chức để đảm bảo tính bảo mật và tối ưu hóa việc sử dụng.
Với quá trình xử lý dữ liệu (Data Processing), Spotify sử dụng ngôn ngữ truy vấn dữ liệu BigQuery, Flink, SQL, SCIO…
Xây dựng văn hóa dữ liệu
Không dừng lại ở việc xây dựng một nền tảng dữ liệu mạnh mẽ, Spotify muốn tiến xa hơn và phát triển văn hóa dữ liệu toàn diện trong tổ chức. Văn hóa này được thiết kế để đảm bảo rằng tất cả nhân viên, từ nhân sự mới đến những chuyên gia kỳ cựu, đều có khả năng truy cập, hiểu và sử dụng dữ liệu một cách hiệu quả.
Văn hóa dữ liệu được thiết kế để đảm bảo rằng tất cả nhân viên, từ nhân sự mới đến chuyên gia kỳ cựu, đều có khả năng truy cập, hiểu và sử dụng dữ liệu một cách hiệu quả.
Cụ thể, Spotify tập trung nâng cao năng lực dữ liệu của từng cá nhân và đội nhóm bằng cách thành lập các bộ phận chuyên phụ trách hướng dẫn và đào tạo. Bộ phận này chịu trách nhiệm sản xuất các bài blog chuyên môn (documentation) để phổ biến kiến thức dữ liệu trong nội bộ và bên ngoài. Đồng thời, họ cũng soạn thảo tài liệu hướng dẫn chi tiết, giúp các phòng ban hiểu cách sử dụng dữ liệu trong công việc.
Bên cạnh đó, Spotify cũng thiết kế một quy trình hội nhập (onboarding) dành cho nhân viên mới hoặc những người bắt đầu được cấp quyền truy cập vào các dữ liệu cấp cao. Đây là một lộ trình chi tiết hướng dẫn nhân sự cách khai thác và sử dụng dữ liệu đúng cách, qua đó tạo nền tảng vững chắc cho tất cả nhân sự có quyền truy cập dữ liệu. Quy trình này cũng giúp Spotify tăng cường sự nhất quán về cách sử dụng dữ liệu trên toàn công ty.
Cuối cùng, nền tảng này xây dựng một cộng đồng nội bộ trên Slack dành riêng cho những nhân viên làm việc với dữ liệu. Ở đây, nhân sự lâu năm và nhân sự mới có thể dễ dàng kết nối, chia sẻ thông tin và hỗ trợ nhau về kinh nghiệm liên quan đến dữ liệu, từ kỹ thuật đến ứng dụng thực tiễn. Ngoài là một diễn đàn giải quyết các vấn đề về dữ liệu, cộng đồng còn góp phần nâng cao nhận thức và kiến thức về dữ liệu trong toàn tổ chức.
Trong bối cảnh mà “ra quyết định dựa trên dữ liệu” đang trở thành một xu hướng phổ biến, việc tổ chức một doanh nghiệp định hướng dữ liệu thực thụ lại là một thách thức không nhỏ. Điều này đặc biệt đúng với các doanh nghiệp lớn và có bề dày hoạt động, vốn dĩ giống như những chiếc xe buýt đang chạy – không thể dừng lại để nâng cấp hay chuyển đổi hệ thống.
Spotify, với khối lượng dữ liệu khổng lồ được tạo ra mỗi ngày, là minh chứng cho cách một doanh nghiệp công nghệ có thể vượt qua những thử thách đó. Từ việc thiết kế các quy trình lưu trữ, xử lý, và quản trị dữ liệu chặt chẽ đến xây dựng một văn hóa dữ liệu mạnh mẽ, Spotify đã cho thấy sự cam kết của mình trong việc khai thác sức mạnh của dữ liệu. Chính nhờ những nỗ lực này, Spotify có thể tự tin với định vị một doanh nghiệp data-driven.
Để tìm hiểu thêm về những câu chuyện dữ liệu ở Spotify, mời bạn tham khảo tại đây.
Theo Phương Quyên / Brands Vietnam
* Nguồn: Spotify Engineering