11-12-2017, 07:10

Làm sao Apple biết emoji nào được dùng nhiều nhất mà không đọc tin nhắn người dùng?

Mặt vừa khóc vừa cười và trái tim là 2 biểu tượng cảm xúc emojis được dùng nhiều nhất, theo báo cáo cách đây không lâu của Apple. Vậy làm sao họ biết được thông tin thống kê này? Có phải họ đã theo dõi những gì mà người dùng chat? Câu trả là lời là bằng một kỹ thuật phân tích big data thông minh, Apple vừa có thể thu được số liệu hữu ích, vừa có thể đảm bảo quyền riêng tư của từng người dùng.
Chi tiết hơn, họ đã dùng một kỹ thuật khoa học máy tính mang tên Differential Privacy. Một cách đơn giản thì cách làm ở đây là thêm một số thông tin gây nhiễu để làm tối nghĩa dữ liệu trên một chiếc điện thoại của người dùng, nhưng sau đó, gói dự liệu đã bị gây nhiễu của người này sẽ được kết hợp với dữ liệu trải qua xử lý tương tự của người khác, từ đó khi quan sát trên cấp độ vĩ mô, Apple vẫn có thể hiểu được dữ liệu họ muốn lấy nhưng không hề đọc thông tin của từng cá nhân người dùng.

Và trường hợp của Apple chỉ là một thí dụ cho việc áp dụng Differential Privacy nhằm lấy dữ liệu thống kê một cách tinh tế.

Thí dụ như bạn muốn tiến hành một cuộc khảo sát trước khi bầu lớp trưởng nhằm xác định xem có bao nhiêu người bầu cho ứng cử viên A và B. Khi đó, bạn sẽ gọi những người đi bầu tới, yêu cầu họ bỏ biếu và ghi chép lại đầy đủ trong một cuốn sổ. Tuy nhiên, nếu bảng ghi chép này bị lộ hoặc đánh cắp thì danh sách toàn bộ những người bỏ phiếu cùng lựa chọn của họ sẽ bị lộ. Do đó, với cách làm này thì bạn dù có đạt được mục đích khảo sát nhưng đồng thời lại tạo ra nguy cơ tính riêng tư của nhiều người khác bị xâm hại.

Bây giờ, hãy nghĩ nếu như người tổ chức khảo sát gọi những người tham gia bầu chọn tới và hỏi họ một câu hỏi khác với việc hỏi thẳng là sẽ chọn ai làm lớp trước. Thí dụ như người tổ chức sẽ yêu cầu người bầu chọn tung đồng xu. Nếu mặt ngửa thì người đi bầu sẽ được yêu cầu nói thật rằng họ sẽ chọn ai làm lớp trưởng. Nếu mặt sấp, họ sẽ được yêu cầu chọn ngẫu nhiên trong số 2 ứng cử viên lớp trưởng và nói tên 1 người. Nói cách khác, đồng xu sấp đồng nghĩa với việc người bầu chọn sẽ chọn A và B theo tỷ lệ 50 - 50. Cuối cùng, cách làm này sẽ giúp người tổ chức cuộc bình chọn sẽ nghe được lựa chọn thật của người bầu chọn với tỷ lệ 75%, 25% còn lại là nghe được lời nói dối. Trong thí dụ này, việc đưa đồng xu vào chính là một cách gây nhiễu dữ liệu gốc và chính người tổ chức cũng không biết được câu trả lời họ nghe là đúng hay sai, chỉ biết được tỷ lệ phần trăm.

Do đó, cho dù bảng ghi chép kết quả sau cuộc bình chọn lớp trưởng bị lộ ra ngoài thì thông tin cá nhân của mỗi người tham gia bầu chọn vẫn được bảo vệ. Nguyên nhân là do người ta không xác định được ai bỏ phiếu cho ai, mỗi người đều có khả năng trả lời không đáng tin nên người lén đọc dữ liệu cũng không xác định được cái họ đọc chính xác hay không. Tuy nhiên, đối với người tiến hành khảo sát thì họ có thể tính được con số trung bình kết quả bầu chọn bởi chính họ mới là người biết được cách gây nhiễu dữ liệu. Nói cách khác, khi nhìn trên giác độ vĩ mô thì có thể thu được thông tin cần thiết, nhưng khi quan sát vi mô thì không khả dĩ.

 Và đây cũng chính là cách mà Apple đã áp dụng để xác định được biểu tượng cảm xúc nào phổ biến nhất mà vẫn đảm bảo thông tin người dùng. Họ cho biết: “Ý tưởng này bắt nguồn từ việc xác định một cách cẩn thận quy mô của dữ liệu nhiễu để đủ bảo vệ dữ liệu người dùng. Một khi càng có nhiều người tham gia đóng góp vào khối dữ liệu chung, yếu tố nhiễu sẽ được trung bình hóa và thông tin có nghĩa bắt đầu xuất hiện.” Apple cho biết thêm rằng khi người dùng chấp nhận chia sẻ loại dữ liệu này với họ, yếu tố gây nhiễu được thêm vào dữ liệu trên điện thoại, sau đó một mẫu mã hóa ngẫu nhiên sẽ được chuyển tới máy chủ của Apple. Tuy nhiên trong đó không có chứa thông tin nhận diện thiết bị và thời gian tạo sự kiện. Còn nếu người dùng không tin vào cách làm này, họ vẫn có thể tắt nó bằng cách vào Settings -> Privacy -> Analytics, sau đó tắt mục Share iPhone Analytics là xong.

Bên cạnh việc xác định biểu tượng cảm xúc nào được dùng nhiều nhất hay bảo vệ những người bầu chọn lớp trưởng thì Differential Privacy còn là một công cụ quan trọng để giải quyết các vấn đề chuyên môn phức tạp khác. Điển hình như nó có thể được dùng để xác định tỷ lệ mắc ung thư trong một quần thể dân cư nhất định dù không xác định được cụ thể ai mắc bệnh. Nói cách khác, Differential Privacy là công cụ để thống kê được một đặc điểm của cả một tập hợp nào đó mà không phải là đặc điểm của từng phần tử.

Tham khảo Popsci, Ảnh Fortune

Cùng chuyên mục