Big Data đã giúp Trump chiến thắng trong cuộc Bầu cử Mỹ như thế nào?
Tờ tạp chí "Das Magazin" của Thụy sĩ xuất bản bằng tiếng Đức một cuộc điều tra về cách thức mà các nhà khoa học về dữ liệu (data scientist) kết hợp các công ty phân tích dữ liệu lớn (data analytics) sử dụng công nghệ quảng cáo tùy biến theo cá nhân trên Facebook gây ảnh hưởng đến cuộc bầu cử tổng thống Hoa Kỳ.
Nhiều nhà báo trên thế giới đã gọi bài báo điều tra này là “text of the year” (bài viết của năm) về tác dụng của bigdata vào đời sống, trong đó chúng ta có thể thấy các công nghệ mới nhất về dữ liệu lớn (Big Data), khoa học hành vi, và các phần mềm gián điệp đang len lỏi vào đời sống hàng ngày của mỗi người chúng ta. Phần lớn bài biết dưới đây rút ra từ bài báo: “Ich habe nur gezeigt, dass es die Bombe gibt” đăng ngày 3 tháng 12 năm 2016 trên Das Magazin.
Ngày 9 tháng 11 năm 2016, theo như Das Magazin thì một quả bom đã phát nổ: Donald Trump đã được bầu làm tổng thống Mỹ, bất chấp dự báo của các nhà xã hội học.
Cũng ngày hôm đó, một công ty nhỏ chưa ai nghe tên ở London đã gửi đi thông cáo báo chí: “Chúng tôi lấy làm kinh ngạc vì phương pháp truyền thông dựa trên dữ liệu có tính cách mạng của mình đã góp phần đáng kế vào chiến thắng của Donald Trump”. Thông cáo được ký bởi một người tên là Alexander Nix, 41 tuổi, người Anh và lãnh đạo công ty Cambridge Analytica. Phương pháp cách mạng về truyền thông dựa trên dữ liệu (revolutionary approach to data-driven communications) này sử dụng kết quả công trình nghiên cứu của một nhà khoa học 34 tuổi tên là Michal Kosinski, chuyên gia hàng đầu trong lĩnh vực psychometrics – ngành tâm lý học dựa trên phân tích dữ liệu.
Từ dữ liệu (data) đến phân tích dữ liệu (data analytics) và dữ liệu lớn (Big Data) thành những từ thời thượng (buzzword) nhưng Big Data nguy hiểm đến mức nào?
Dữ liệu lớn là một thuật ngữ dựa trên một khái niệm rằng tất cả những gì ta làm, trên mạng hay offline, đều để lại dấu vết số. Mua hàng bằng thẻ tín dụng, tìm đường trên Google, dạo chơi với điện thoại trong túi, dùng thiết bị đeo (wearable device) để theo dõi sức khỏe, mức độ tập luyện đến việc nhấn like trên mạng xã hội: tất cả đều được lưu lại dưới dạng những dữ liệu và dữ liệu này rất lớn, khổng lồ theo thời gian. Một thời gian dài không ai hình dung có thể sử dụng các dữ liệu ấy làm gì. Cũng không ai biết Big Data sẽ là gì đối với nhân loại, hiểm họa lớn hay thành tựu vĩ đại? Nhưng từ 9/11 chúng ta đã biết câu trả lời. Đằng sau chiến dịch tranh cử của Trump trên mạng, và đằng sau chiến dịch ủng hộ Brexit là cùng một công ty chuyên nghiên cứu Big Data: Cambridge Analytica (CA) dưới sự lãnh đạo của Giám đốc AlexanderNix. Tuy nhiên, dữ liệu chỉ là dữ liệu nếu nó không được phân tích và được mô hình hóa. Có rất nhiều mô hình để phân tích dữ liệu nhưng công ty CA đã sử dụng phương pháp đo nhân cách (psychometrics), đôi khi gọi là đồ hình nhân cách (psychography) do Michal Kosinski, nhà khoa học hàng đầu về dữ liệu và là phó giám đốc Trung tâm đo nhân cách (Psychometrics Centre) thuộc trường Đại học Cambridge.
Trong tâm lý học hiện đại, để đo nhân cách thì phổ biến nhất là dùng phương pháp OCEAN (từ chữ cái đầu của 5 chiều đo). Vào những năm 1980, các nhà tâm lý học đã chứng minh là mỗi người có thể được đo bằng 5 chiều. Đó là Big Five: độ mở đối với trải nghiệm (Openness), sự ý thức (Conscientiousness), sự hướng ngoại (Extraversion), sự dễ chịu (Agreeableness) và sự nhạy cảm (Neuroticism). Trên cơ sở những số đo ấy có thể hiểu chính xác bạn là ai, bạn có mong muốn và nỗi sợ hãi nào, và bạn sẽ hành xử như thế nào. Trở ngại chính là việc thu thập dữ liệu vì để hiểu được một người, cần phải điền bảng hỏi khổng lồ và cần thu thập dữ liệu rất lớn. Sự phát triển của khoa học dữ liệu và dữ liệu lớn đã góp phần giải quyết thành công những trở ngại mà phương pháp OCEAN đặt ra.
Tại Trung tâm đo nhân cách, Kosinski và các cộng sự đã phát triển một ứng dụng trên Facebook là MyPersonality trong đó người dùng trả lời các bảng các câu hỏi để biết nhân cách của mình và họ đã thu thập được dữ liệu của hàng triệu người dùng Facebook.
Kosinski và nhóm nghiên cứu các hành động của họ trên Facebook như like và re-post, và giới tính, độ tuổi và nơi ở. Qua đó nhóm thu được các mối tương quan (correlation). Từ kỹ thuật phân tích các dữ liệu trên mạng có thể cho ra những kết luận bất ngờ. Ví dụ, nếu một người đàn ông là fan của page mỹ phẩm MAC, thì khả năng lớn là đồng tính. Ngược lại, anh ta rất nam tính nếu là fan của ban nhạc hip hop Wu-Tang Clan ở New York. Fan của Lady Gaga khả năng lớn là người hướng ngoại, còn kẻ hay like các post mang tính triết lý thì hướng nội.
Công trình nghiên cứu của Kosinski không chỉ cho phép lập chân dung tâm lý của người dùng, mà còn cho phép tìm kiếm những người có chân dung cần thiết. Ví dụ như có thể tìm những ông bố lo lắng, những kẻ hướng nội giận dữ, hay những người ngả theo đảng Dân chủ nhưng còn lưỡng lự bỏ phiếu. Về bản chất, đó là hệ thống tìm kiếm con người với những đặc tính cần tìm hiểu.
Vào năm 2014, một công ty quan tâm đến phương pháp của Kosinski đề nghị thực hiện một dự án sử dụng psychometrics để phân tích 10 triệu người dùng Mỹ trên Facebook nhưng phân tích người dùng làm gì và tên công ty thì không nói viện cớ bảo mật thông tin. Lúc đầu Kosinski đồng ý nhưng rồi anh lại trì hoãn. Cuối cùng, tên công ty được tiết lộ là SCL (Strategic Communications Laboratories). Và trên website của công ty giới thiệu: “Chúng tôi là công ty toàn cầu chuyên về quản lý các chiến dịch tranh cử”. Công ty SCL này là công ty mẹ của công ty Cambridge Analytica, công ty thực hiện chiến dịch online cho Brexit và Trump.
Tháng 11 năm 2015 lãnh tụ phái cấp tiến ủng hộ Brexit Nigel Farage tuyên bố là website của của ông ta bắt đầu làm việc với một công ty chuyên về Big Data, chính là CA. Năng lực cốt lõi của công ty này là tiếp thị chính trị (political marketing) kiểu mới, còn được gọi là microtargeting, trên nền tảng phương pháp OCEAN.
Big Data nguy hiểm tới mức nào?
Tháng 6 năm 2016, Trump đã thuê các chuyên gia Cambridge Analytica, nhiều người ở Washington cười cợt. Họ chắc chắn rằng Trump sẽ không bao giờ có thể hợp tác với các chuyên gia tư vấn nước ngoài của mình một cách hiệu quả. Tuy nhiên, họ đã sai.
Khác với Omama được xem là Tổng thống của mạng xã hội thì D. Trump vẫn được người ta cười nhạo về việc khả năng rất kém của ông trong việc sử dụng các công cụ công nghệ thông tin, mạng xã hội. Trợ lý của Trump tiết lộ, thậm chí ông còn không dùng email. Bản thân cô trợ lý này đã dạy ông dùng điện thoại, và từ đó ông dùng nó để đổ dòng suy nghĩ của mình lên Twitter.
Công ty Cambridge Analytica đã phát triển một giải pháp toàn diện cho phép biết tính cách của mỗi công dân Mỹ, những người có quyền bỏ phiếu. Giải pháp tiếp thị chính trị tuyệt vời của Cambridge Analytica dựa trên ba chiến thuật chính:
- Phân tích hành vi (Behavioral analysis) theo mô hình OCEAN.
- Nghiên cứu cẩn thận Big Data.
- Quảng cáo nhắm mục tiêu (Targeted advertising).
Quảng cáo nhắm mục tiêu có nghĩa là quảng cáo cá nhân hóa, được xây dựng theo tính cách của từng cá thể người dùng dựa trên nhân tính của họ xác định từ mô hình OCEAN.
Như vậy, bản thân Big Data chỉ là một nguồn thông tin lớn, một mỏ vàng cần được khai thác nhưng khai thác thế nào hiệu quả lại là một vấn đề khác. Cần có một mô hình phân tích hành vi tiên tiến. Và khi biết một người có tính cách gì và đang lưỡng lự trong việc bỏ phiếu thì cần phải dùng thông điệp thế nào cho phù hợp.
Bản chất đầy mâu thuẫn của Trump, tính phi nguyên tắc và hệ quả là số lượng lớn các loại thông điệp khác nhau bỗng trở nên hữu ích cho ông ta: mỗi cử tri nhận được một thông điệp riêng. “Trump hành xử như một thuật toán cơ hội lý tưởng, hoàn toàn chỉ dựa trên phản ứng của công chúng” – nhà toán học Cathy O’Neil nhận xét vào tháng tám. Vào ngày tranh luận thứ ba giữa Trump và Clinton, đội của Trump đã gửi vào mạng xã hội (chủ yếu là Facebook) hơn 175 nghìn thông điệp. Chúng chỉ khác nhau ở những chi tiết rất nhỏ, nhằm phù hợp nhất với tâm lý của người nhận cụ thể: tiêu đề, tiêu đề phụ, màu nền, ảnh và video. Cách làm tỉ mỉ như vậy khiến cho thông điệp nhận được sự đồng cảm của những nhóm cư dân nhỏ nhất, như Nix giải thích cho Das Magazine: “Bằng cách đó chúng tôi có thể vươn đến tận làng, khu phố hay ngôi nhà cần thiết, thậm chí là từng người”.
Chiến thắng của ứng cử viên Cộng hòa Donald Trump trước đối thủ đến từ Đảng Dân chủ Hillary Clinton được cho là một chiến thắng ít tốn kém và nhiều hiệu quả nhất. Theo hãng tin Reuters, Trump tiêu tốn dưới 5 USD cho mỗi lá phiếu bầu cho ông, thấp hơn nhiều so với chi phí của bà Clinton.
Theo số liệu mới nhất từ Ủy ban Bầu cử Liên bang, Trump đã huy động được tổng số 270 triệu USD kể từ khi bắt đầu chiến dịch tranh cử vào tháng 6/2015. Trong khi Hillary Clinton huy động được 521 triệu USD, gấp đôi khoản tiền mà Trump huy động được. Nhưng 237 triệu chi phí cho truyền hình, 53 triệu cho nhân viên và các tình nguyện viên hỗ trợ tranh cử, một khoản tiền lớn cho các báo, đài, các phương tiện truyền thống. Đó cũng là lý giải tại sao khi xem các phương tiện truyền thống như báo, đài thì có vẻ Hillary được đánh giá cao hơn Trump.
Một hãng Phân tích dữ liệu lớn khác là mediaQuant đánh giá các chương trình truyền thông thông tin cho cuộc bầu cử 2016 của Trump mang lại một giá trị định lượng tương đương 5 tỷ USD cho ông này, so với bà Clinton là 3.5 tỷ hay tỉ lệ 58% so với 42%. Thực tế ông Trump đã chiếm được 279 phiếu bầu đại cử tri so với 228 phiếu bầu của bà Hillary, tỷ lệ 52% so với 48%.
Khó có thể nói xã hội Mỹ bị tác động đến mức nào bởi các chuyên gia của Trump tại một thời điểm cụ thể, vì họ không sử dụng các kênh trung ương mà dùng mạng xã hội và truyền hình cáp.
Từ tháng 7/2016 các tình nguyện viên của Trump đã nhận được app cho phép biết được thiên kiến chính trị và loại nhân cách của cư dân nhà này hay nhà khác. Theo đó, những tình nguyện viên – tuyên truyền viên điều chỉnh hội thoại của mình với người dân. Phản hồi của người dân lại được họ ghi ngược vào app đó, và dữ liệu chuyển thẳng về trung tâm phân tích của CA.
Công ty xác định ra 32 loại tính cách tâm lý của dân Mỹ, tập trung ở 17 bang. Và như Kosinski đã phát hiện, rằng đàn ông thích mỹ phẩm MAC thì hầu như chắc chắn là đồng tính, CA chứng minh rằng những kẻ trung thành với ô tô Mỹ hẳn nhiên là ngả theo Trump. Hơn nữa, những phát kiến như vậy giúp bản thân Trump hiểu những thông điệp nào dùng ở đâu thì tốt nhất. Quyết định của đại bản doanh về việc tập trung vào Michigan và Wisconsin vào những tuần cuối cùng là dựa trên phân tích dữ liệu.
Ngoài chiếm thắng Nigel Farage ở Brexit và của Trump trong cuộc Bầu cử Mỹ 2016 thì người chiến thắng là công ty CA với khoản thù lao 15 triệu USD nhận được từ chiến dịch của Trump. Marion Maréchal-Le Pen, một nhân vật cấp tiến đồng thời là cháu của thủ lĩnh đảng “Mặt trận dân tộc” Pháp cũng đã mừng vui loan báo về quan hệ hợp tác với hãng. Theo Nix, công ty đang được rất nhiều khách hàng trên thế giới quan tâm, có cả từ Thụy sỹ và Đức.
Nhu cầu phân tích và khai thác những nguồn dữ liệu lớn và phức tạp trong các hoạt động của con người và các tổ chức trong những năm gần đây đang trở nên cấp bách. Sở dĩ vậy vì ta đang có nhiều dữ liệu quanh mình hơn bao giờ hết và nếu dùng được chúng sẽ đưa ra được các quyết định đúng đắn hơn, những hiểu biết chính xác, những khám phá quan trọng. Khoa học phân tích dữ liệu (data science or data analytics) gần đây trở thành một lĩnh vực sôi động của công nghệ thông tin, có ảnh hưởng sâu sắc tới mọi lĩnh vực hoạt động của con người, đặc biệt trong kinh doanh.
Theo nghiên cứu của các nhà kinh tế, đến năm 2018, Mỹ sẽ cần 140.000 đến 190.000 người có kỹ năng phân tích chuyên sâu cũng như 1,5 triệu nhà quản lý và phân tích trong lĩnh vực “dữ liệu lớn” (Big Data). Nắm chắc và biết sử dụng khoa học phân tích dữ liệu chính là chìa khoá của công việc và thành công trong những thập kỷ tới đây, như ý kiến nêu trong Harvard Business Review: “Khoa học dữ liệu là công việc hấp dẫn nhất trong thế kỷ 21” (“Data scientist: the sexiest job of the 21st century”).
Đào Trung Thành
Nguồn Vietnamnet