Digital Transformation #6: “Dữ liệu doanh nghiệp đã sẵn sàng chưa?”
Thời đại này, doanh nghiệp nào cũng muốn chuyển đổi số. Nhà cung cấp dịch vụ nào cũng khẳng định lợi ích có dữ liệu lớn (Big Data) kết hợp với trí tuệ nhân tạo (AI) và máy học (ML). Vậy dữ liệu nào mới được gọi là “lớn” để chạy được AI, và liệu doanh nghiệp đã biết cách tổ chức dữ liệu sẵn sàng cho chuyển đổi số?
Holistics là đơn vị cung cấp nền tảng phân tích dữ liệu kinh doanh và xây dựng kho dữ liệu (Business Intelligence & Data Warehouse) cho các doanh nghiệp dựa trên mô hình dịch vụ phần mềm chạy trên định dạng web có thể xử lý từ xa (Software as a Service – SaaS).
Holistics thuộc số ít công ty tại Đông Nam Á hoạt động trong lĩnh vực này, cạnh tranh với các công ty lớn trên thế giới, trong đó có các tên tuổi như Tableau – IPO với định giá trên 16 tỷ USD, và Sisense – được đầu tư hơn 170 triệu USD. Công ty đặt trụ sở tại Singapore và có văn phòng tại 3 quốc gia Việt Nam, Singapore và Indonesia.
Ông Nguyễn Văn Quang Huy, Giám đốc Công nghệ tại Holistics, đã có buổi trò chuyện chuyên sâu với Brands Vietnam trong chuyên mục “Chuyển đổi số” về chủ đề Dữ liệu.
* Dạo gần đây truyền thông hay nhắc nhiều đến các thuật ngữ như ML, AI, Big Data… Là một người hoạt động trong lĩnh vực dữ liệu, ông có thể chia sẻ vắn tắt về sự ra đời của các xu hướng này trên thế giới?
Nếu chúng ta để ý, trước đây doanh nghiệp cũng có dữ liệu để lưu trữ nhưng đó là những dữ liệu chuyên về hoạt động công ty như doanh thu, lợi nhuận, chi phí, đơn hàng, thông tin người dùng… Các dữ liệu như vậy được gọi là “Dữ liệu Vận hành”.
Đến giai đoạn 2000-2004, khi Internet phát triển mạnh mẽ, các công cụ tìm kiếm như Yahoo, Google nổi lên, một loại dữ liệu mới bắt đầu được sinh ra. Các công cụ tìm kiếm này lưu trữ hành vi của người sử dụng như từ khoá tìm kiếm, thói quen lướt web, loại trình duyệt, vị trí các cú click chuột… Nhóm dữ liệu này được gọi là “Dữ liệu Hành vi” và chúng được lưu trữ riêng biệt với “Dữ liệu Vận hành” của doanh nghiệp.
Thuật ngữ Big Data bắt đầu xuất hiện khi Dữ liệu Hành vi của người dùng ngày càng lớn. Và do xu hướng phát triển của công nghệ, điện thoại thông minh, càng ngày người dùng càng “ở” trên internet nhiều hơn để tìm kiếm, đánh giá trước khi tiến đến việc mua hàng, từ đó các doanh nghiệp bắt đầu kết hợp hai bộ dữ liệu lại với nhau để hỗ trợ cho việc kinh doanh, tiếp thị hoặc tối ưu quá trình vận hành của doanh nghiệp. Sau đó thì cũng là lúc các khái niệm như ML (Machine Learning) hay AI (Artifical Intelligence) bắt đầu xuất hiện.
* Vậy ông có thể cho biết thêm đâu là điểm khác nhau giữa hai cơ sở dữ liệu này và doanh nghiệp làm sao để kết hợp chúng để tạo ra lợi thế về dữ liệu?
Cả hai khác nhau về bản chất. Dữ liệu Vận hành thì rất ít, giả sử mỗi khách hàng là một dòng dữ liệu thì các doanh nghiệp sở hữu 100.000 dòng đã là nhiều rồi. Thứ đến là tần suất truy xuất các dữ liệu này cũng theo định kỳ chứ không thường xuyên, ví dụ như thành viên truy cập, hay khi làm báo cáo tuần, tháng, cuối quý chẳng hạn.
Trái lại, Dữ liệu Hành vi có thể lên đến con số hàng trăm triệu dòng dữ liệu tuỳ vào nhu cầu ghi nhận thông tin của doanh nghiệp. Chẳng hạn như số lượng đơn hàng của Tiki, hay số thành viên của Momo, có thể lên đến vài chục triệu thì đã được xem là nhiều đối với thị trường, nhưng vẫn không thể so sánh với độ lớn của Dữ liệu Hành vi; hay các đơn vị mạng xã hội, để hiểu rõ hành vi người dùng, họ có những trường thông tin lưu cả vị trí chuột dừng ở đâu, thường click vào các nội dung nào để phân tích; các trang Thương mại điện tử có thể lưu các trang sản phẩm khách hàng đã xem, số lần xem của họ, hay thông tin đưa vào giỏ hàng...
Dữ liệu Hành vi bị mất cũng không ảnh hưởng đến hoạt động doanh nghiệp, ngược lại đối với Dữ liệu Vận hành, công ty có thể bị tê liệt.
Việc lưu Dữ liệu Hành vi có thể thực hiện với tất cả lượt truy cập, bất kể người dùng có tương tác hay phát sinh giao dịch, để lại thông tin hay không. Và tần suất truy cập, ghi dữ liệu của nhóm này liên tục để có những báo cáo tức thời, vì thế cách lưu trữ cũng rất tốn kém. Một điểm khác biệt lớn nhất giữa hai loại Dữ liệu là dù lưu trữ nhiều hơn, tốn kém hơn nhưng Dữ liệu Hành vi có mất cũng không ảnh hưởng đến hoạt động doanh nghiệp. Ngược lại, mất Dữ liệu Vận hành thì công ty có thể phải tê liệt trong một khoảng thời gian nhất định.
Để có lợi thế về dữ liệu, nhiều doanh nghiệp sẽ muốn kết hợp hai bộ dữ liệu này lại để đảm bảo tính nhất quán của dữ liệu. Tuy nhiên, hai bộ dữ liệu này ngay từ đầu đã khác nhau về các trường thông tin, cấu trúc dữ liệu bên trong, chẳng hạn Dữ liệu Vận hành là một bảng tính với 1000 dòng thì Dữ liệu Hành vi là bảng tính có số dòng lớn gấp 10. Ngoài ra, do tính quan trọng của Dữ liệu Vận hành nên việc truy xuất hay thay đổi thường xuyên tạo ra rủi ro tổn hại dữ liệu. Vậy nên có một giải pháp được đưa ra là: sao chép và di chuyển hai bộ dữ liệu này đến một kho trung gian gọi là Data WareHouse.
Lúc này xuất hiện tiếp một vấn đề khác là chọn dữ liệu nào để đưa vào Data Warehouse để không bị dư thừa. Ví dụ Dữ liệu Vận hành của một website bán sách có thể là tên username, password, email, thông tin thành viên, đơn hàng; còn Dữ liệu Hành vi của website đó có thể là các hành vi click vào danh mục sách, các đầu sách được xem nhiều, các khung giờ có người click vào mua hàng nhiều nhất. Như thế, khi kết hợp cả hai lại để phục vụ cho mục tiêu phân tích, bộ phận xử lý đâu nhất thiết phải đưa mục password vào chẳng hạn.
* Dịch vụ của Holistics sẽ ở đâu trong câu chuyện kể trên? Và vì sao ông lại chọn con đường đó?
Chúng tôi chọn mình là đơn vị cung cấp nền tảng để các doanh nghiệp chuyển dữ liệu của họ đến Data Warehouse, sau đó mô hình hoá dữ liệu với business logic phù hợp với doanh nghiệp, và cuối cùng là cung cấp giao diện cho người dùng business kéo thả để tìm ra Business Insights, từ đó bổ trợ cho các quyết định kinh doanh.
Thứ hai, cũng là yếu tố quan trọng nhất – việc cung cấp nền tảng vận chuyển các dữ liệu. Chúng tôi không tác động hay can thiệp gì đến dữ liệu của doanh nghiệp, mà toàn bộ dữ liệu của doanh nghiệp được lưu trữ và xử lý trên hạ tầng của doanh nghiệp (như hạ tầng private cloud, hay public cloud như Amazon, Google & Microsoft). Với cách tiếp cận này, doanh nghiệp có thể tối ưu chi phí lưu trữ dữ liệu cũng như tăng tối đa khả năng bảo mật dữ liệu. Đó là cách mà công ty non trẻ như Holistics gia nhập thị trường.
Nói đơn giản, nếu xem dữ liệu doanh nghiệp là hàng hoá, và các đơn vị cung cấp Data Warehouse (như Google Cloud, Amazon Web Service, Microsoft Azure) là nhà kho, thì Holistics cung cấp toàn bộ dịch vụ trọn gói liên quan, từ vận chuyển dữ liệu từ nhà máy của doanh nghiệp đến kho, sắp xếp dữ liệu trong kho, đến công cụ đưa ra insights từ lượng dữ liệu đó.
* Ông có thể chia sẻ các bước vận chuyển và tổ chức dữ liệu trong một doanh nghiệp? Đâu là bước quan trọng nhất?
Đây là một câu hỏi khá thú vị. Chúng tôi luôn cho rằng, các doanh nghiệp muốn làm các bước sâu hơn về dữ liệu như AI, ML thì dữ liệu của anh chị phải “sẵn sàng”. Sẵn sàng ở đây bao hàm việc đã được số hoá và chuẩn hoá.
Nhìn chung có 4 bước cần thực hiện gồm: Số hoá Dữ liệu, Tổng hợp và Lưu trữ, Mô hình hoá dữ liệu (Quan trọng nhất), Vận chuyển và Báo cáo.
Đầu tiên là Số hoá Dữ liệu (Digitalisation). Tất cả các dữ liệu liên quan đến vận hành doanh nghiệp phải được số hoá. Dĩ nhiên là ngoài những tài sản kỹ thuật số của doanh nghiệp (Digital Assets), thì bước nào chưa được số hoá, còn làm bằng giấy bút, thì nên số hoá. Bước này đơn giản nhất, nhưng nếu không có, xem như không làm được các bước sau.
Tiếp theo, cần đi đến Tổng hợp và Lưu trữ (Data Unification & Storage), là bước di chuyển dữ liệu đến Data Warehouse. Tất cả các bộ dữ liệu của doanh nghiệp, như Dữ liệu Vận hành từ CRM, Dữ liệu Hành vi từ các tài sản số; các loại dữ liệu mọi người ít nghĩ đến như Dữ liệu Cửa hàng, Dữ liệu Bán hàng, Dữ liệu Wifi, nếu được số hoá tốt, cũng sẽ được lựa chọn để chuyển vào Data Warehouse.
Người sử dụng dữ liệu khi cần truy xuất dữ liệu thường dùng “tư duy của người kinh doanh (Business Logic)” , nhưng đây không phải là cách xử lý mà hệ thống hiểu.
Bước thứ ba cũng là bước quan trọng nhất cho phần truy xuất dữ liệu về sau – Mô hình hoá dữ liệu (Data Modeling). Người sử dụng dữ liệu (sales, marketing, ban giám đốc…) khi cần truy xuất dữ liệu thường dùng “tư duy của người kinh doanh (Business Logic)”, ví dụ như “lấy doanh thu trừ chi phí sẽ ra lợi nhuận”, nhưng đây không phải là cách xử lý dữ liệu mà hệ thống hiểu. Các công ty thường sẽ cần đội “phân tích kinh doanh (Business Intelligence – BI)” để làm công tác chuyển Business Logic thành các “câu lệnh xử lý” (Data Logic), ngôn ngữ mà hệ thống có thể xử lý được.
Holistics nhận ra một số hạn chế của nhiều công cụ BI trên thị trường, vì thế chúng tôi cung cấp một nền tảng giúp cho doanh nghiệp dựng sẵn các Data Logic đó với tính phổ quát và tái sử dụng cao. Do đó, người mới gia nhập phòng BI cũng có thể tiếp tục công việc ngay lập tức, bằng cách sử dụng các “quy tắc dữ liệu” đã được thiết lập từ trước.
Cuối cùng là Vận chuyển và Báo cáo (Data Reporting). Đây là công đoạn xuất báo cáo đến các kênh mà người nhận dữ liệu cần, ví dụ như gửi báo cáo tới ban giám đốc, tới bộ phận vận hành, hoặc tới các bên đối tác (Data Delivery). Các báo cáo đã được xây dựng có thể được tự động gửi đi theo ngày, tuần, tháng với dữ liệu mới nhất. Với Holistics, người sử dụng dữ liệu, dù không sở hữu kỹ năng công nghệ phức tạp vẫn có thể tự trả lời các câu hỏi về business và đưa ra các decisions một cách dễ dàng.
Ngoài ra, dữ liệu gửi đến người nhận cũng có thể được phân tầng và minh bạch hoá theo từng nhóm người sử dụng. Lấy ví dụ một siêu thị làm việc với 20 nhà đối tác. Đến cuối tháng, cả 20 đối tác sẽ nhận được 20 bản báo cáo khác nhau. Họ vẫn sẽ thấy được doanh thu tổng, chi tiết hàng tồn của các siêu thị trong tháng đó, nhưng sẽ không thấy được thông tin tương tự của các doanh nghiệp khác.
Cuối cùng mới đến việc trích xuất và xử lý dữ liệu bằng các bộ máy khác như AI, ML, Automation… mà đầu vào chính là những dữ liệu đã được tổ chức gọn gàng, đồng bộ hoá, mô hình hoá với tính đồng nhất cao. Nếu chưa tổ chức tốt được dữ liệu, thì khoan hãy đề cập đến AI hay ML.
* Theo ông, đâu là điều kiện để các doanh nghiệp sử dụng dịch vụ mà Holistics cung cấp nói riêng, và các đơn vị vận chuyển dữ liệu nói chung?
Tôi cho rằng có 3 điều kiện. Thứ nhất, công ty đó phải có dữ liệu, nghĩa là đã phải số hoá tốt phần lớn quy trình, hoặc tối thiểu là những quy trình quan trọng. Kế đến, công ty phải có người am hiểu về công nghệ, hoặc thuê được đơn vị tư vấn tốt, bởi vì không thể tổ chức dữ liệu tốt mà không có người thực sự hiểu biết về công nghệ, kỹ thuật số trong thời đại ngày nay. Đơn vị tư vấn dù tốt thế nào, cũng cần phải bàn giao sau một thời gian triển khai. Cuối cùng, công ty nên có đội ngũ BI hoặc Phân tích dữ liệu. Sẽ rất hoang phí nếu có dữ liệu nhưng không biết tận dụng.
Đây cũng là 3 yêu cầu chung của bất cứ công ty nào khi muốn làm các nghiệp vụ liên quan đến dữ liệu.
* Xin cảm ơn ông.
Xem các bài khác trong chuyên mục tại đây.
* Nguồn: Brands Vietnam