Video: The Power to Transform Big Data into Knowledge | Montserrat Fuentes | TEDxRVAWomen 2025
Phân tích thống kê không phải là một đứa trẻ mới vào khối, và đó chắc chắn là tin cũ rằng nó phụ thuộc vào việc xử lý số lượng lớn dữ liệu để có được cái nhìn sâu sắc mới. Tuy nhiên, số lượng dữ liệu được truyền thống xử lý bởi các hệ thống này nằm trong khoảng từ 10 đến 100 (hoặc hàng trăm) gigabyte - không phải là phạm vi terabyte hoặc petabyte được thấy ngày nay, nói cách khác.
Và nó thường đòi hỏi một máy xử lý đa xử lý (SMP) đối xứng tốn kém với càng nhiều bộ nhớ càng tốt để giữ dữ liệu đang được phân tích. Đó là bởi vì nhiều thuật toán được sử dụng bởi các phương pháp tiếp cận phân tích khá "tính toán chuyên sâu" và được thiết kế để chạy trong bộ nhớ - vì chúng đòi hỏi nhiều và thường xuyên xuyên qua dữ liệu.
Trong khi lấy mẫu là một ý tưởng hay về lý thuyết, trên thực tế đây thường là một thủ thuật không đáng tin cậy. Tìm được một mẫu có ý nghĩa thống kê có thể là thử thách đối với các bộ dữ liệu thưa thớt và / hoặc lệch, điều này khá phổ biến. Điều này dẫn đến việc lấy mẫu không chính xác, có thể đưa ra những điểm ngoại lệ và các điểm dữ liệu bất thường và có thể thiên vị các kết quả phân tích của bạn.