Data-Science-la-gi-dizibrand

DATA SCIENCE LÀ GÌ?

Sử dụng thuật ngữ Data science (tạm dịch: khoa học dữ liệu) ngày càng phổ biến, nhưng nó chính xác có nghĩa là gì? Những kỹ năng nào cần thiết để trở thành Data scientist (tạm dịch: khoa học dữ liệu)? Sự khác biệt giữa Business Intelligence (BI) và khoa học dữ liệu là gì? Làm thế nào là quyết định và dự đoán trong khoa học dữ liệu? Đây là một số câu hỏi sẽ được trả lời thêm.  

Data-Science-la-gi-dizibrand

Đầu tiên, hãy xem khoa học dữ liệu là gì. Khoa học dữ liệu là sự pha trộn của nhiều công cụ, thuật toán và nguyên tắc học máy khác nhau với mục tiêu khám phá các mẫu ẩn từ dữ liệu ban đầu. Điều này khác gì với những điều các nhà thống kê đã làm trong nhiều năm?  

Câu trả lời nằm ở sự khác biệt giữa giải thích và dự đoán.

Data-Science-la-gi-1-dizibrand

Như bạn có thể thấy từ hình ảnh trên, Data Analyst ( tạm dịch:phân tích dữ liệu ) thường giải thích những gì đang diễn ra bằng cách xử lý lịch sử dữ liệu. Mặt khác, khoa học dữ liệu không chỉ phân tích khám phá để khám phá những hiểu biết sâu sắc về nó, mà còn sử dụng các thuật toán học máy tiên tiến khác nhau để xác định sự xuất hiện của một sự kiện cụ thể trong tương lai. Một nhà khoa học dữ liệu sẽ xem xét dữ liệu từ nhiều góc độ, đôi khi các góc độ không được biết trước đó.

Vì vậy, khoa học dữ liệu chủ yếu được sử dụng để đưa ra quyết định và dự đoán bằng cách sử dụng phân tích nguyên nhân dự đoán, phân tích theo quy định (khoa học dự đoán cộng với quyết định) và học máy.

  • Phân tích nguyên nhân dự đoán – Nếu muốn một mô hình có thể dự đoán khả năng của một sự kiện cụ thể trong tương lai, bạn cần áp dụng phân tích nguyên nhân dự đoán. Giả sử, nếu bạn đang cung cấp tiền cho tín dụng, thì xác suất khách hàng thực hiện thanh toán tín dụng trong tương lai đúng hạn là vấn đề bạn sẽ quan tâm. Tại đây, bạn có thể xây dựng một mô hình có thể thực hiện phân tích dự đoán về lịch sử thanh toán của khách hàng để dự đoán liệu các khoản thanh toán trong tương lai có đúng hạn hay không.
  • Phân tích căn cứ theo quy định – Nếu muốn một mô hình có sự thông minh trong việc đưa ra quyết định của riêng mình và khả năng sửa đổi nó với các tham số động, bạn chắc chắn cần phân tích theo quy định cho nó. Lĩnh vực tương đối mới này là tất cả về cung cấp lời khuyên. Nói cách khác, nó không chỉ dự đoán mà còn gợi ý một loạt các hành động được quy định và các kết quả liên quan.

Ví dụ tốt nhất cho điều này là chiếc xe tự lái của Google. Dữ liệu được thu thập bởi các phương tiện có thể được sử dụng để đào tạo xe tự lái. Bạn có thể chạy các thuật toán trên dữ liệu này để mang lại sự thông minh cho nó. Điều này sẽ cho phép chiếc xe của bạn đưa ra các quyết định như khi nào cần rẽ, đường nào sẽ đi, khi nào giảm tốc độ hoặc tăng tốc.

  • Học máy để đưa ra dự đoán – Nếu có dữ liệu giao dịch của một công ty tài chính và cần xây dựng một mô hình để xác định xu hướng trong tương lai, thì thuật toán học máy là điều đặt cược tốt nhất. Điều này rơi vào mô hình học tập có giám sát. Nó được gọi là giám sát vì bạn đã có dữ liệu dựa trên đó, nơi bạn có thể huấn luyện máy của mình. Ví dụ, một mô hình phát hiện gian lận có thể được đào tạo bằng cách sử dụng hồ sơ lịch sử mua hàng gian lận.
  • Học máy để khám phá mẫu – Nếu không có các tham số dựa trên đó bạn có thể đưa ra dự đoán, bạn cần tìm ra các mẫu ẩn trong tập dữ liệu để có thể đưa ra dự đoán có ý nghĩa. Đây không là gì khác ngoài mô hình không được giám sát vì bạn không có bất kỳ nhãn hiệu được xác định trước nào để nhóm lại. Thuật toán phổ biến nhất được sử dụng để khám phá mẫu là Clustering.

Giả sử bạn đang làm việc trong một công ty điện thoại và bạn cần thiết lập một mạng bằng cách đặt các tòa tháp trong một khu vực. Sau đó, bạn có thể sử dụng kỹ thuật phân cụm để tìm các vị trí tháp đó và để đảm bảo rằng tất cả người dùng nhận được cường độ tín hiệu tối ưu.

Chúng ta hãy xem tỷ lệ của các cách tiếp cận được mô tả ở trên khác nhau như thế nào đối với phân tích dữ liệu cũng như khoa học dữ liệu. Như bạn có thể thấy trong hình ảnh bên dưới, phân tích dữ liệu bao gồm các phân tích mô tả và dự đoán ở một mức độ nhất định.  Mặt khác, khoa học dữ liệu thiên về phân tích nguyên nhân dự đoán và học máy.

Data-Science-la-gi-2-dizibrand

VÌ SAO DATA SCIENCE LẠI QUAN TRỌNG?

Ngày càng có nhiều công ty, bao gồm nhưng không giới hạn ở các doanh nghiệp lớn, đang nhận ra tầm quan trọng của khoa học dữ liệu, AI và học máy. Bất kể ngành nghề hay quy mô, các tổ chức muốn duy trì khả năng cạnh tranh trong thời đại dữ liệu lớn cần phát triển và thực hiện hiệu quả khả năng khoa học dữ liệu hoặc sẽ có nguy cơ bị bỏ lại phía sau.

TẠI SAO CHÚNG TA LẠI CẦN DATA SCIENCE?

Theo truyền thống, dữ liệu mà chúng ta có hầu hết có cấu trúc và kích thước nhỏ, có thể được phân tích bằng cách sử dụng các công cụ BI đơn giản. Không giống như dữ liệu trong các hệ thống truyền thống được cấu trúc chủ yếu, ngày nay hầu hết các dữ liệu không có cấu trúc hoặc bán cấu trúc. Chúng ta hãy xem các xu hướng dữ liệu trong hình ảnh được đưa ra dưới đây cho thấy rằng vào năm 2020, hơn 80% dữ liệu sẽ không được cấu trúc.

Data-Science-la-gi-3-dizibrand

Dữ liệu này được tạo từ các nguồn khác nhau như nhật ký tài chính, tệp văn bản, biểu mẫu đa phương tiện, cảm biến và công cụ. Các công cụ BI đơn giản không có khả năng xử lý khối lượng dữ liệu khổng lồ và đa dạng này. Đây là lý do tại sao chúng ta cần các công cụ và thuật toán phân tích phức tạp và tiên tiến hơn để xử lý, phân tích và rút ra những hiểu biết ý nghĩa về nó.

Đây không phải là lý do duy nhất khiến khoa học dữ liệu trở nên phổ biến. Hãy tìm hiểu sâu hơn và xem khoa học dữ liệu đang được sử dụng như thế nào trong các lĩnh vực khác nhau.

Sẽ thế nào nếu có thể hiểu các yêu cầu chính xác của khách hàng từ dữ liệu hiện có như lịch sử duyệt web, lịch sử mua hàng, tuổi và thu nhập của khách hàng. Không còn nghi ngờ gì nữa, bạn đã có tất cả dữ liệu này sớm hơn, nhưng bây giờ với số lượng lớn và đa dạng dữ liệu, bạn có thể đào tạo các mô hình hiệu quả hơn và giới thiệu sản phẩm cho khách hàng với độ chính xác cao hơn. Nó sẽ không tuyệt vời vì nó sẽ mang lại nhiều công việc hơn cho tổ chức của bạn?

Chúng ta hãy lấy một kịch bản khác để hiểu vai trò của khoa học dữ liệu trong việc ra quyết định. Sẽ thế nào nếu xe của bạn có trí thông minh để đưa bạn về nhà? Những chiếc xe tự lái thu thập dữ liệu trực tiếp từ các cảm biến, bao gồm radar, máy ảnh và laser để tạo ra một bản đồ về môi trường xung quanh. Dựa trên dữ liệu này, phải đưa ra các quyết định như khi nào tăng tốc, khi nào giảm tốc độ, khi nào vượt qua, nơi nào cần thực hiện lần lượt – sử dụng các thuật toán học máy tiên tiến.

Hãy xem khoa học dữ liệu có thể được sử dụng như thế nào trong các phân tích dự đoán.  Hãy lấy dự báo thời tiết làm ví dụ. Dữ liệu từ tàu, máy bay, radar, vệ tinh có thể được thu thập và phân tích để xây dựng mô hình. Những mô hình này sẽ không chỉ dự báo thời tiết mà còn giúp dự đoán sự xuất hiện của bất kỳ thiên tai nào. Nó sẽ giúp bạn thực hiện các biện pháp thích hợp trước và cứu nhiều mạng sống quý giá.

Chúng ta hãy xem infographic dưới đây để xem tất cả các lĩnh vực mà khoa học dữ liệu đang tạo ấn tượng.

Data-Science-la-gi-4-dizibrand
[Data Science là gì?] Vì sao Data Science lại quan trọng?
5 (100%) 5 votes