Học Qlik Sense qua ví dụ: Phân tích dân số và kinh tế thế giới (P1)

Ngoài dữ liệu từ các hệ thống nghiệp vụ trong tổ chức, chuyên viên phân tích đôi khi cần tham chiếu đến những nguồn dữ liệu bên ngoài. Ví dụ, khi phân tích dữ liệu doanh thu kinh doanh thời trang theo quốc gia, bạn có thể sẽ muốn biết cơ cấu dân số theo độ tuổi và giới tính ở mỗi nước. Thông tin này sẽ giúp bạn nắm được dung lượng thị trường và tiềm năng của nhãn hàng thời trang của bạn theo từng phân khúc.

Tích hợp dữ liệu bên ngoài vào hệ thống BI nội bộ không phải là công việc đơn giản. Ngoài việc tìm đúng nguồn dữ liệu, bạn còn cần phải lựa chọn phương thức kết nối phù hợp, làm sạch dữ liệu và duy trì cập nhật phiên bản mới nhất từ nguồn dữ liệu. Để đơn giản hóa công việc này, Qlik cung cấp một nguồn dữ liệu riêng với tên gọi Qlik DataMarket.

Bài viết sau đây giới thiệu các nguồn dữ liệu mà Qlik DataMarket cung cấp, cách thức kết nối và tích hợp dữ liệu từ DataMarket vào Qlik Sense. Để tránh sa đà vào lý thuyết chung chung, bài viết sẽ trình bày các bước xây dựng một ứng dụng đơn giản sử dụng DataMarket làm nguồn dữ liệu. Ứng dụng này cũng là dịp để bạn thực hành một số kỹ năng trong Qlik Sense như sử dụng Data Manager và làm việc với biểu đồ dạng bản đồ (map object).

Data market là gì

Trước khi bắt tay vào xây dựng ứng dụng, hãy cùng điểm qua một số khái niệm về Qlik DataMarket. Đây là một tập hợp các tập dữ liệu được Qlik thu thập từ các nguồn xác thực như Ngân hàng thế giới, Cục thống kê dân số Hoa Kỳ hoặc sàn giao dịch chứng khoán các nước. Dữ liệu trên DataMarket khá đa dạng như địa lý, nhân khẩu học, chứng khoán, tài chính, thời tiết, y tế, v.v., luôn được cập nhật các thay đổi mới nhất và sẵn sàng sử dụng trong Qlik Sense.

Qlik Data Market hiện cung cấp 6 gói dữ liệu sau. Gói đầu tiên là miễn phí, còn lại là premium, cần mua license để sử dụng:

  • Essentials Free: Thông tin căn bản về nhân khẩu học, xã hội, kinh té và thời tiết
  • Essentials: Tương tự như Essentials Free nhưng nhiều dữ liệu hơn
  • Financial Reports: Báo cáo tài chính của khoảng 100,000 công ty trên hơn 120 sàn giao dịch chứng khoán toàn cầu
  • Stock and Indices: Tập trung vào giá chứng khoán hiện tại và lịch sử
  • World Currencies: Tỷ giá của hơn 160 loại tiền
  • World Weather: Thông tin thời tiết hiện tại và quá khứ của các trạm khí tượng trên toàn thế giới

Có thể kết nối với DataMarket bằng một kết nối được tích hợp sẵn trong Qlik Sense gọi là DataMarket connector. Đây là một kết nối đăc biệt: chỉ có thể dùng trong Data Manager, không thể can thiệp vào các tùy chọn của connector và không được liệt kê trong danh sách data connector trong Data Load Editor.

Ví dụ minh họa: Xây dựng app phân tích dân số và kinh tế thế giới theo quốc gia

Ứng dụng của chúng ta lấy dữ liệu từ Qlik DataMarket với mục đích phân tích các tiêu chí sau theo từng quốc gia trong năm gần nhất (2017/2018):

  • Dân số
  • Tỷ lệ Nam/ Nữ trong cơ cấu dân số
  • GDP
  • Tốc độ tăng trưởng GDP
  • Tỷ lệ thất nghiệp

Các tiêu chí này sẽ được thể hiện ở dạng bản đồ, với quốc gia tương ứng được tô màu đậm/ nhạt tùy theo giá trị tiêu chí. Người sử dụng có thể tương tác trực tiếp trên bản đồ, hoặc chọn các chiều phân tích (dimension) từ các filter.

Tạo app và tải dữ liệu từ Qlik Data Market

Bước 1: Trong Qlik Sense Desktop, tạo một app mới và đặt tên tùy ý.

Bước 2: Trong app vừa tạo, click biểu tượng Menu Menu, chọn Add data > Qlik DataMarket. Trong 6 gói dữ liệu DataMarket, chọn Essentials Free.

Bước 3: Chọn tập dữ liệu Demographics > World population by country. Tập dữ liệu này bao gồm 3 Dimesion và 1 chiều thời gian (Time – có ở tất cả các tập dữ liệu DataMarket). Chọn tất cả giá trị cho 3 dimension Country, Sex, Age group. Đối với Time, chọn Most recent. 

Bước 4: Nhấn Add data ở góc dưới bên phải màn hình. Dữ liệu World population đã được preload (nhưng chưa load thực sự) vào app. Qlik Sense Desktop quay về Associations view trong Data Manager.

Bước 5: Lặp lại bước 2,3,4 như trên, lần này chọn tập dữ liệu Economy > Selected development indicators. Chọn các dữ liệu sau:

  • Dimension: Geographical area – tất cả giá trị
  • Time: Most recent
  • Measure: Chọn 3 indicator sau
    • GDP
    • GDP growth
    • Unemployment, total

Tạo liên kết giữa 2 tập dữ liệu

Sau khi nhấn Add data, 2 tập dữ liệu về dân số và các chỉ tiêu kinh tế đã được thêm vào Data Manager. Tuy nhiên, bạn có thể thấy data model hiện tại chia làm 2 nhóm tương ứng với 2 tập dữ liệu. 2 nhóm này hiện chưa liên kết với nhau, mỗi nhóm gọi là một “data island” theo thuật ngữ của Data Warehouse nói chung.

Để liên kết 2 nhóm, bạn cần một field chung từ 2 table thuộc mỗi nhóm. Ở đây ta thấy 2 tập dữ liệu đều có dimension là tên quốc gia. Xem kỹ 2 bảng Country và Geographical area thuộc 2 nhóm dữ liệu, ta có thể thấy các cặp field sau chứa cùng 1 loại dữ liệu:

  • Country và qlik_datamarket_51y5.Country: Tên quốc gia
  • ISO 3166 và qlik_datamarket_51y5.Country: Mã quốc gia theo tiêu chuẩn ISO 3166 (vi.wikipedia.org/wiki/ISO_3166-1)

2 cặp field này đều có thể sử dụng làm key field. Ở đây mình sẽ sử dụng ISO 3166vì mã quốc gia có tính thống nhất cao hơn và chỉ có 2 ký tự, thuận lợi hơn cho việc tạo key.

Một lợi điểm của Data Manager so với Data Load Editor là cho phép người sử dụng tạo liên kết bằng cách kéo-thả trực quan các table tương ứng mà không cần phải sửa lại reload script. Cách làm như sau:

Bước 6: Nhấn giữ vòng tròn tương ứng với bảng Geographical area, kéo thả vào bảng Country. Trong cửa sổ Associate tables, chọn field ISO 3166 ở mỗi bảng. Nhấn Associate. Xem minh họa trong hình dưới đây:

5

Bước 7: 2 tập dữ liệu đã được liên kết với nhau. Nhấn LoadData để load dữ liệu vào app.

Các bước thiết kế ứng dụng và tạo bản đồ sẽ được trình bày trong bài viết sau.

Tổng kết

Bài viết trên đây giới thiệu Qlik DataMarket, mục đích sử dụng và các gói dữ liệu mà sản phẩm này cung cấp. Bài viết cũng hướng dẫn cách tải 2 tập dữ liệu từ DataMarket thông qua các bước đầu xây dựng một ứng dụng đơn giản. Các bước này cũng là dịp để bạn đọc thực hành sử dụng Data Manager, trải nghiệm khả năng tương tác trực quan và tạo liên kết trong data model mà không cần phải can thiệp vào reload script.

Bài viết kế tiếp trong loạt bài sẽ hướng dẫn cách xây dựng các biểu đồ để phân tích data model mà chúng ta vừa tạo.