Video: Thống kê mô tả-Cách chạy thống kê mô tả trong SPSS( Nhóm MBA thực hiện) 2025
Dữ liệu chứa trong cơ sở dữ liệu, tài liệu, e-mail, và các tệp dữ liệu khác để phân tích tiên đoán có thể được phân loại thành dữ liệu có cấu trúc hoặc không có cấu trúc. Dữ liệu được cấu trúc được tổ chức tốt, theo một trật tự nhất quán, tương đối dễ tìm kiếm và truy vấn và có thể dễ dàng truy cập và hiểu bởi một người hoặc một chương trình máy tính.
Một ví dụ điển hình của dữ liệu có cấu trúc là một bảng tính Excel với các cột được gắn nhãn. Dữ liệu có cấu trúc như vậy là nhất quán; tiêu đề cột - thường ngắn gọn, mô tả chính xác nội dung trong từng cột - cho bạn biết chính xác loại nội dung mong muốn.
Dữ liệu có cấu trúc thường được lưu trữ trong các lược đồ được xác định rõ ràng như cơ sở dữ liệu. Nó thường là dạng bảng, với các cột và các hàng rõ ràng xác định thuộc tính của nó.
Mặt khác, dữ liệu phi cấu trúc có xu hướng là dạng tự do, không phải là dạng bảng, phân tán, và không dễ lấy lại; những dữ liệu đó đòi hỏi sự can thiệp cố ý để hiểu ý nghĩa của nó. Các e-mail, tài liệu, trang web và tệp khác nhau (cho dù văn bản, âm thanh và / hoặc video) ở các vị trí rải rác là những ví dụ về dữ liệu phi cấu trúc.
Thật khó phân loại nội dung dữ liệu phi cấu trúc. Nó có xu hướng chủ yếu là văn bản, nó thường được tạo ra trong một kiểu mẫu dạng tự do, và tìm ra bất kỳ thuộc tính nào bạn có thể sử dụng để mô tả hoặc nhóm nó không phải là một công việc nhỏ.
Nội dung của dữ liệu phi cấu trúc là khó làm việc hoặc có ý nghĩa về lập trình. Các chương trình máy tính không thể phân tích hoặc tạo ra các báo cáo về dữ liệu đó, đơn giản bởi vì nó không có cấu trúc, không có đặc điểm ưu thế nổi bật và các mục dữ liệu cá nhân không có điểm chung.
Nói chung, có một tỷ lệ cao hơn các dữ liệu phi cấu trúc so với dữ liệu có cấu trúc trên thế giới. Dữ liệu phi cấu trúc đòi hỏi nhiều công sức hơn để làm cho nó trở nên hữu ích, vì vậy nó sẽ thu hút nhiều sự chú ý hơn - do đó có khuynh hướng tiêu thụ nhiều thời gian hơn.
Đừng đánh giá thấp tầm quan trọng của dữ liệu có cấu trúc và sức mạnh mà nó mang lại cho phân tích của bạn. Phân tích dữ liệu có cấu trúc hiệu quả hơn phân tích dữ liệu phi cấu trúc. Dữ liệu phi cấu trúc cũng có thể là tốn kém để tiền xử lý để phân tích khi bạn đang xây dựng một dự án phân tích tiên đoán. Việc lựa chọn dữ liệu có liên quan, việc làm sạch của nó và các biến đổi sau đó có thể kéo dài và tẻ nhạt.
Dữ liệu kết quả mới được tổ chức từ các bước tiền xử lý cần thiết sau đó có thể được sử dụng trong mô hình phân tích tiên đoán. Tuy nhiên, việc chuyển đổi bán buôn dữ liệu phi cấu trúc có thể phải chờ cho đến khi bạn có mô hình phân tích tiên đoán và chạy.
Khai thác dữ liệu và phân tích văn bản là hai cách tiếp cận để cấu trúc tài liệu văn bản, liên kết nội dung, nhóm và tóm tắt dữ liệu của họ và khám phá các mẫu trong dữ liệu đó. Cả hai nguyên tắc này cung cấp một khuôn khổ phong phú các thuật toán và kỹ thuật để khai thác văn bản nằm rải rác khắp biển của tài liệu.
Cũng cần lưu ý rằng các nền công cụ tìm kiếm cung cấp các công cụ sẵn có để lập chỉ mục dữ liệu và làm cho nó có thể tìm kiếm được.
Hãy so sánh dữ liệu có cấu trúc và không có cấu trúc.
Hình dáng | Có cấu trúc | Không có cấu trúc |
---|---|---|
Hiệp hội | Tổ chức | Rải rác và phân tán |
Hình thức | Định hình chính thức | Hình thức tự do |
Dễ tiếp cận | truy cập và truy vấn | Khó truy cập và truy vấn |
Tính sẵn sàng | Tỷ lệ phần trăm dưới | Tỷ lệ phần trăm |
Phân tích | cao hơn | Cần xử lý thêm |
Dữ liệu phi cấu trúc không hoàn toàn thiếu cơ cấu - bạn chỉ cần phải châm chọc nó ra. Ngay cả văn bản bên trong các tệp kỹ thuật số vẫn có một số cấu trúc liên kết với nó, thường xuất hiện trong siêu dữ liệu - ví dụ như tiêu đề tài liệu, ngày tháng các tệp được sửa đổi lần cuối và tên tác giả của chúng.
Điều tương tự cũng áp dụng cho e-mail: Nội dung có thể không có cấu trúc, nhưng dữ liệu có cấu trúc được liên kết với chúng - ví dụ: ngày và giờ được gửi, tên của người gửi và người nhận, cho dù chúng có chứa tệp đính kèm không.
Dòng phân cách giữa hai kiểu dữ liệu không phải lúc nào cũng rõ ràng. Nói chung, bạn luôn có thể tìm thấy một số thuộc tính của dữ liệu phi cấu trúc có thể được coi là dữ liệu có cấu trúc. Cho dù cấu trúc đó phản ánh nội dung của dữ liệu đó hay hữu ích trong phân tích dữ liệu thì rõ ràng là tốt nhất.
Đối với vấn đề đó, dữ liệu có cấu trúc có thể chứa dữ liệu phi cấu trúc trong đó. Ví dụ như trong một mẫu web, người dùng có thể được yêu cầu cung cấp phản hồi về sản phẩm bằng cách chọn câu trả lời từ nhiều lựa chọn - nhưng cũng có một hộp nhận xét, nơi họ có thể cung cấp phản hồi bổ sung.
Câu trả lời từ nhiều lựa chọn được cấu trúc; lĩnh vực nhận xét là không có cấu trúc vì bản chất tự do của nó. Các trường hợp như vậy được hiểu là kết hợp dữ liệu có cấu trúc và không có cấu trúc. Hầu hết dữ liệu là một hợp chất của cả hai.
Đối với một dự án phân tích tiên đoán thành công, cả dữ liệu có cấu trúc và không có cấu trúc của bạn phải được kết hợp dưới dạng hợp lý để phân tích.