Khái niệm chất lượng dữ liệu (Data Quality) xuất hiện lần đầu vào năm 1996, khi Richard Y. Wang và Diane M. Strong phát hiện ra 15 thứ nguyên. Trong bài viết này, chúng ta hãy xem xét 08 thứ nguyên cốt lõi của chất lượng dữ liệu.
1. Độ chính xác
Dữ liệu chính xác phản ánh thế giới thực, đồng thời là nguồn cung cấp thông tin đáng tin cậy mà bạn có thể tin tưởng. Khi dữ liệu không chính xác, nó sẽ gây ra những tác động tiêu cực trong thế giới thực. Ví dụ, trong lĩnh vực chăm sóc sức khỏe, độ chính xác của dữ liệu là rất quan trọng, bởi dữ liệu sai lệch có thể dẫn đến việc chẩn đoán và điều trị không chính xác. Chẳng hạn, những sai sót trong dữ liệu về liều lượng thuốc của bệnh nhân có thể dẫn đến điều trị quá liều hoặc không đủ liều. Trong tài chính, dữ liệu sai có thể dẫn đến vi phạm các tiêu chuẩn. Dữ liệu càng chính xác, các tổ chức càng có khả năng đưa ra quyết định có tác động tích cực đến khách hàng và hoạt động kinh doanh.
2. Tính nhất quán
Dữ liệu nhất quán xuất hiện khi tất cả các bản sao có kết quả giống nhau trên nhiều tập dữ liệu. Điều này rất quan trọng vì nó cải thiện khả năng liên kết dữ liệu của bạn từ nhiều nguồn và từ đó tăng khả năng sử dụng của dữ liệu. Dữ liệu không nhất quán thường xảy ra khi có dữ liệu trùng lặp và / hoặc thiếu các quy trình chuẩn hóa để nhập dữ liệu. Ví dụ: trường hợp thông tin khách hàng bao gồm cả số điện thoại cũ và mới, dẫn đến tình trạng dữ liệu không nhất quán. Một ví dụ khác, khi bạn không chuẩn hóa mục nhập dữ liệu ngày tháng thành mm / dd / yyyy, dữ liệu về những thông tin quan trọng như ngày sinh hoặc ngày kết thúc hợp đồng có thể dẫn đến những hiểu lầm và hậu quả không đáng có.
3. Mức độ liên quan
Mức độ liên quan của dữ liệu có ý nghĩa khác nhau cho từng lĩnh vực khác nhau. Dữ liệu liên quan đến tài chính sẽ có ít hoặc không có giá trị đối với nhà cung cấp dịch vụ chăm sóc sức khỏe. Tương tự, dữ liệu mà một nhà bán lẻ thu thập để thúc đẩy các nỗ lực tiếp thị của họ sẽ mang lại ít giá trị cho cơ quan thực thi pháp luật. Điều quan trọng đối với các tổ chức là thiết lập dữ liệu nào có liên quan để không bị lãng phí thời gian vào việc xử lý thông tin không cần thiết. Xử lý dữ liệu có liên quan giúp doanh nghiệp hiểu rõ hơn về hành vi của khách hàng và giúp đưa ra quyết định tốt hơn.
4. Khả năng kiểm toán
Kiểm tra cơ sở dữ liệu cho phép bạn theo dõi cách dữ liệu được sử dụng, cũng như bất kỳ thay đổi nào được thực hiện để thông tin quan trọng không bị ghi đè vĩnh viễn. Việc kiểm tra cũng sẽ cho phép phát hiện trong trường hợp dữ liệu bị lạm dụng. Sự minh bạch trên toàn bộ cơ sở dữ liệu sẽ cho phép bạn xem bản ghi nào được truy cập, cũng như người truy cập là ai. Điều này sẽ giúp bạn xác định bất kỳ rủi ro nào về vi phạm dữ liệu, từ đó sẽ giúp bạn cải thiện việc tuân thủ dữ liệu trong doanh nghiệp của mình. Kiểm toán dữ liệu cũng giúp giảm thời gian truy cập thông tin. Cơ sở dữ liệu của bạn càng dễ điều hướng, bạn càng có khả năng tìm kiếm dữ liệu liên quan nhanh hơn, từ đó cải thiện dịch vụ của bạn.
5. Tính hoàn chỉnh
Dữ liệu hoàn tất khi có tất cả các thông tin cần thiết. Điều này không nhất thiết có nghĩa là tất cả các trường thông tin phải đầy đủ — nhưng những trường quan trọng cần phải được thống nhất. Một ví dụ trong chăm sóc sức khỏe là bệnh nhân liệt kê đầy đủ các loại dị ứng của họ nhằm tránh rủi ro kế hoạch điều trị không phù hợp hoặc những hậu quả nghiêm trọng hơn. Dữ liệu không đầy đủ không có nghĩa là dữ liệu không chính xác, vì một tập dữ liệu hoàn chỉnh có thể vẫn bao gồm những thông tin không chính xác. Tính hoàn chỉnh của dữ liệu phải được đo lường trên toàn bộ hồ sơ chứ không chỉ ở cấp độ mục. Thông thường, nó được đánh giá theo tỷ lệ phần trăm, với mỗi tổ chức cần thiết lập con số nào là mức thâm hụt có thể chấp nhận được.
6. Tính kịp thời
Tính kịp thời của dữ liệu là giảm thiểu độ trễ để dữ liệu đến với đúng người vào đúng thời điểm. Tùy thuộc vào ngành, tính kịp thời của dữ liệu và độ trễ của dữ liệu, có thể có những tác động khác nhau. Lấy Kiểm soát không lưu làm ví dụ - sự an toàn của bầu trời dựa vào luồng dữ liệu thời gian thực liên tục. Tuy nhiên, không phải lĩnh vực nào cũng yêu cầu thông tin thường xuyên như vậy để đảm bảo chất lượng dữ liệu của họ một cách hiệu quả. Điều quan trọng là mỗi tổ chức đang sử dụng dữ liệu chính xác trong thời điểm cụ thể đó. Thông tin chi tiết dựa trên dữ liệu cũ có thể dẫn đến việc ra quyết định kém hiệu quả. Dữ liệu càng mới thì càng có nhiều khả năng chính xác.
7. Hiệu lực
Thứ nguyên này đo lường cách dữ liệu tuân thủ các quy tắc kinh doanh như định dạng, loại và phạm vi. Một ví dụ tiêu biểu mà chúng ta dễ dàng nhìn thấy là tất cả các email phải chứa "@". Một trường hợp khác sẽ xảy ra khi số hiệu ID của nhân viên có các chữ cái biểu thị thông quan an ninh, với mục nhập không chính xác dẫn đến việc cấm truy cập vào nhân viên được ủy quyền.
Đảm bảo tính hợp lệ của dữ liệu có nghĩa là mỗi tổ chức thiết lập các tham số mà dữ liệu phải đáp ứng. Điều này có nghĩa là nó có thể được sử dụng với các nguồn dữ liệu khác và sẽ góp phần vào việc chạy các quy trình dữ liệu tự động hiệu quả hơn.
8. Tính độc đáo
Sự trùng lặp dữ liệu gây ra hàng loạt vấn đề. Khi cùng một dữ liệu được lưu trữ ở nhiều vị trí, nó sẽ dẫn đến việc sử dụng không gian lưu trữ không cần thiết, nghiêm trọng hơn là sự nhầm lẫn mà nó có thể gây ra. Hãy tưởng tượng có hai bộ hồ sơ, nhưng chỉ một bộ được cập nhật khi khách hàng gửi số điện thoại mới của họ. Phiên bản mới có thể bị nhầm lẫn với phiên bản cũ và điều này dẫn đến dữ liệu không đáng tin cậy. Do đó, điều cần thiết là phải đảm bảo bạn đang nắm giữ tập dữ liệu mới nhất và phù hợp nhất. Bạn có thể thực hiện điều này bằng cách hợp nhất dữ liệu trùng lặp và xóa các phiên bản không liên quan trong khi theo dõi các thay đổi trong cơ sở dữ liệu
Duy trì tình trạng dữ liệu của bạn “Việc ra quyết định hiệu quả đòi hỏi các nhà lãnh đạo doanh nghiệp phải sắp xếp lại những gì cần thiết, những ai hoặc những gì có liên quan - cũng như suy nghĩ lại về cách tận dụng dữ liệu và phân tích để cải thiện việc ra quyết định. Kết quả sẽ là một năng lực cốt lõi mới, thúc đẩy kết quả kinh doanh tốt hơn. ” - Gartner Dữ liệu chất lượng kém khiến các tổ chức tiêu tốn trung bình 12,9 triệu đô la mỗi năm. Mặc dù con số này có vẻ lớn, nhưng nó vẫn chưa nói lên tác động khổng lồ của dữ liệu chất lượng kém theo thời gian. Thật vậy, dữ liệu chất lượng kém có thể đồng nghĩa với sự hiểu biết không chính xác về khách hàng. Như vậy, nó có thể dẫn đến việc các tổ chức đưa ra các quyết định kinh doanh kém hiệu quả. Đảm bảo 08 yếu tố ảnh hưởng đến chất lượng dữ liệu sẽ giúp bạn đo lường chất lượng dữ liệu của mình tốt hơn. Điều đó có nghĩa là, dữ liệu có thể thay đổi theo thời gian, vì vậy, điều quan trọng đối với doanh nghiệp là thường xuyên đánh giá chất lượng dữ liệu. Công cụ dữ liệu phù hợp sẽ giúp bạn đảm bảo chất lượng dữ liệu trong toàn bộ tổ chức của mình. Và kết quả là thông tin chi tiết nhanh hơn, chính xác hơn để đưa ra các quyết định kinh doanh tốt hơn.
Comments