Data mining - Khai phá dữ liệu

 

Data mining(khai phá dữ liệu) là một bộ các kỹ thuật cho việc khám phá, tính toán để có được những mẫu dữ liệu trước mà hợp lệ, hữu ích và dễ hiểu từ các bộ dữ liệu lớn. Từ những mẫu dữ liệu sẽ giúp doanh nghiệp đưa ra những quyết định hợp lý hơn. 

Các bước để thực hiện khai phá dữ liệu:


Hình 1. Các bước khai phá dữ liệu

1. Problem definition phase (Xác định vấn đề)

Đây là bước đầu tiên cực kỳ quan trọng đó là chúng ta xác định và hiểu được vấn đề hoặc yêu cầu của dự án. Từ những yêu cầu (requirements) chúng ta sẽ xác định và vẽ ra chi tiết cho được dự án.
Ví dụ: Nếu chúng ta nhận được câu hỏi "Làm thế nào tôi có thể bán được nhiều hơn sản phẩm mùa nay?". Từ đây ta có thể hiểu vấn đề là "Những khách hàng nào sẽ mua sản phẩm này?"

Sau khi xác định được vấn đề chúng ta sẽ lên xác định những fields data nào sẽ được sử dụng cho vấn đề này để tạo ra một chuẩn (model) cho data.
Ví dụ: Với vấn đề ở ví dụ trên từ đây chúng ta sẽ xác định mẫu(model) sẽ là thông tin của khách hàng bảo gồm thông như age(tuổi), đã từng mua hàng chưa, có con hay chưa chẳng hạn,...

2. Data understanding phase (Đọc hiểu dữ liệu)

Ở bước này data sẽ được thu thập từ nhiều nguồn lại để tạo ra bộ dữ liệu phù hợp cho dự án.
Hai hoạt động quan trọng ở bước này là: data loading (ETL, ELT), data integrate. Mình sẽ phân tích rõ hai hoạt động này ở những blog tiếp.

3. Data preparation phase (Chuẩn bị dữ liệu)

Bước này sẽ chiếm gần như là 90% thời gian của dự án, các hoạt động truy vấn, làm sạch (data cleaning), cấu trúc để bộ dữ liệu có thể đáp ứng được mong muốn của dự án.  

4. Modeling phase (Chuẩn hoá dữ liệu)

Sau khi có được bộ dữ liệu như mong muốn, chúng ta sẽ tiếp tục sử dụng thêm những thuật toán khai phát dữ liệu như phân lớp,.. để chuẩn hoá dữ liệu.

5. Evaluation phase (Đánh giá)

Bộ dữ liệu của chúng ta sẽ có 2 loại: data testing và data training cái để giúp chúng ta đánh giá xem đã đáp ứng được yêu cầu hay chưa. Ở bước này nếu với bộ dữ liệu hiện tại cho kết quả sai vì không đủ hay do qua trình xử lý chuẩn hoá chúng ta có thể phải quay lại bước đầu tiên để xử lý điều chỉnh.

6. Deployment phase (Triển khai)

Xây dựng kết quả, dự đoán từ bộ dự liệu cho stakeholders. Có 4 kỹ thuật để triển khai kết quả:
+ Predictive modeling
+ Database segmentation
+ Link analysis
+ Deviation detection

    6.1. Predictive modeling

Đây là kỹ thuật dựa vào việc dự đoán đầu ra của một sự kiện. 
Ví dụ: Trả lời cho nhu cầu ban đầu thì những khách là người đi làm từ 20-40 tuổi có thể mua sản phẩm mùa này hay không
Tương tự như sử dụng cách học của ML - supervised learning (có sẵn những label cho dự đoán)

    6.2. Database segmentation

Đây là kỹ thuật dự vào mô hình phân lớp, phân cụm data. Để từ đó đưa ra những dự đoán kết quả
Ví dụ: Trả lời cho nhu cầu ban đầu thì những khách có thể mua sản phẩm mùa này là người đi làm từ 20-40 tuổi
Tương tự như sử dụng cách học của ML - unsupervised learning (không có sẵn những label dự đoán)

    6.3. Link analysis

Kỹ này sẽ tìm ra các liên kết trong bộ dữ liệu để đưa ra dự đoán. Có 3 phương tìm ra sự liên kết trong bộ dữ liệu:
+ Associations discovery
+ Sequential pattern discovery
+ Similar time sequence discovery

        6.3.1. Associations discovery

Hiểu nom na kỹ thuật là sẽ kết hợp những mẫu khác nhau trong cùng 1 sự kiện.
Ví dụ: Liên hệ bài toán sắp xếp hàng ở kệ siêu thị, sắp xếp như thế nào để tiếp thị hiệu quả. Dựa vào xác suất khách hàng mua sản phẩm A sẽ mua sản phẩm B để sắp xếp

        6.3.2. Sequential pattern discovery

Là cách tìm ra 1 mẫu bằng việc tham chiếu vào bộ dữ liệu cái mà được theo dõi bởi 1 bộ dữ liệu khác trong cơ sở dữ liệu trong 1 khoảng thời gian
Ví dụ: Liên hệ bài toán dự đoán 1 nhóm các mặt hàng mà khách hàng thường mua với nhau tại các mốc thời gian khác nhau trong 1 năm ( understand long-term customer buying behavior) từ đấy có chương trình tiếp thị hiệu quả.

        6.3.3. Time sequence discovery

Là cách xác định liên kết tồn tại sẽ hai bộ dữ liệu và phụ thuộc vào thời gian.
Ví dụ: Liên hệ bài toán dự đoán trong vòng 3 tháng 1 người mới mua nhà sẽ mua những sản phẩm gì, từ đó tạo ra những hệ thống gợi ý sản phẩm.

    6.4. Deviation detection

Dựa vào việc xác định những ngoại lệ trong dữ liệu để chỉ ra những sai lệch, những bất thường 
Ví dụ: Tìm ra những gian lận trong việc sử dụng thẻ tín dụng

0 Comments