Đặc trưng cơ bản của Big Data là gì?
Big data là các tập dữ liệu có khối lượng phức tạp và lớn, lớn đến mức các phần mềm xử lý dữ liệu truyền thống không có khả năng thu thập, quản lý hay xử lý nhanh chóng
5 đặc trưng cơ bản của big data
Volume (khối lượng)
Big data là cái tên thể hiện kích thước lớn, khối lượng lớn. Để xác định giá trị của dữ liệu, kích thước của dữ liệu thì chúng ta cần sử dụng Big data.
Để có thể xác định giá trị của dữ liệu, kích thước của dữ liệu rất là cần thiết và quan trọng. Nếu khối lượng dữ liệu rất lớn thì nó chính là Big Data. Điều này có nghĩa là một dữ liệu cụ thể có thực sự được coi là Big Data hay không phụ thuộc vào khối lượng dữ liệu đó
Vì thế, để xem đó có phải big data không trước hết bạn cần xác định khối lượng dữ liệu đó
Ví dụ: Vào năm 2016, lưu lượng di động toàn cầu ước tính là 6,2 Exabyte (6,2 tỷ GB) mỗi tháng. Trong năm 2020, chúng ta sẽ có gần 40000 ExaByte dữ liệu di động. Một con số khủng và chứng tỏ đây là big data
Velocity (vận tốc)
Thông qua tốc độ truyền đến của luồng dữ liệu để xác định được sự tiềm năng và độ khủng của dữ liệu mà cho rằng đó là big data hay không. Trong big data, dữ liệu tốc độ truyền đến từ các nguồn như: mạng, máy móc, di động
Ví dụ: Có hơn 3,5 tỷ lượt tìm kiếm mỗi ngày trên Google. Ngoài ra, người dùng FaceBook đang tăng khoảng 22% hàng năm.
Một ví dụ đơn giản khác, trên mạng xã hội facebook các thông báo cách đó vài giây (tweet, status,….) đã là cũ và không được người dùng quan tâm. Người dùng thường loại bỏ các tin nhắn cũ và chỉ chú ý đến các tin nhắn gần nhất. Dữ liệu chuyển động bây giờ được tính vào thời điểm hiện tại (real time) và tốc độ cập nhật thông tin đã giảm xuống đơn vị hàng mili giây.
Variety (đa dạng)
Nó đề cập đến bản chất dữ liệu có cấu trúc, bán cấu trúc, dữ liệu phi cấu trúc. Nó cũng đề cập đến các nguồn không đồng nhất.
Sự đa dạng là sự xuất hiện của dữ liệu từ các nguồn mới cả bên trong và bên ngoài doanh nghiệp.
Dữ liệu có cấu trúc: Là dữ liệu có tổ chức, đã được xác định độ dài và định dạng của dữ liệu.
Dữ liệu bán có cấu trúc: Là dữ liệu nửa của tổ chức, là dạng dữ liệu không phù hợp với cấu trúc chính thức của dữ liệu.
Dữ liệu phi cấu trúc: Đây là loại dữ liệu không được tổ chức, nó là dữ liệu không vừa khít với cấu trúc hàng và cột truyền thống của các cơ sở dữ liệu. Nó mang tính không thể đếm được trong cấu trúc ví dụ: văn bản, hình ảnh, video….
Dữ liệu của doanh nghiệp hay hệ thống ngày nay không còn đơn giản chỉ là một hoặc một vài loại dữ liệu nữa mà tính đa dạng của nó ngày càng tăng lên làm cho tính phức tạp của dữ liệu ngày càng tăng
Veracity (tính xác thực)
Nó đề cập đến sự không nhất quán và không chắc chắn trong dữ liệu, dữ liệu có sẵn đôi khi có thể lộn xộn, chất lượng và độ chính khác khó mà có thể kiểm soát.
Tính xác thực khá khó khi dữ liệu hàng loạt có thể tạo ra sự nhầm lẫn trong khi đó dữ liệu ít hơn thì truyền tải không đủ
Value (giá trị)
Doanh nghiệp cần hoạch định được những thông tin hữu ích của big data cho vấn đề. Những dữ liệu không có giá trị sẽ không có lợi cho công ty.
Có những dữ liệu không có giá trị sử dụng thì cần được chuyển đổi thành thứ có giá trị để trích xuất thông tin.
Khóa học big data: https://niithanoi.edu.vn/khoa-hoc-big-data.html
Tại sao cần phải biết đặc trưng của big data
Bạn cần phải nắm được những đặc trưng của big data để ứng dụng vào doanh nghiệp hay hệ thống của bạn. Big data giúp bạn phát triển sản phẩm dịch vụ mà bạn đang bán thông qua những trang mạng xã hội
Tổng kết: Việc xác định được đặc trưng của big data sẽ giúp doanh nghiệp biết được mình cần làm gì trong chiến lược kinh doanh, giúp tối ưu chi phí, gia tăng hiệu quả hoạt động, nắm bắt được xu hướng của thị trường