Giới thiệu về BIG DATA: Types, Characteristics & Benefits

Ngày đăng: 25/01/2019   -    Cập nhật: 25/01/2019

Để hiểu Big Data (Dữ liệu lớn), trước tiên chúng ta cần biết Data (dữ liệu) là gì? Từ điển Oxford định nghĩa Data là:

"Số lượng, ký tự hoặc ký hiệu mà các hoạt động được thực hiện bởi máy tính, có thể được lưu trữ và truyền dưới dạng tín hiệu điện và được ghi trên phương tiện ghi từ tính, quang học hoặc cơ học."

Vậy, Big Data cũng là một dữ liệu nhưng có kích thước khổng lồ. Big Data là thuật ngữ được sử dụng để mô tả bộ sưu tập dữ liệu có kích thước khổng lồ và đang tăng lên với cấp số nhân theo thời gian.

Tóm lại, dữ liệu đó quá lớn và phức tạp đến nỗi không có công cụ quản lý dữ liệu truyền thống nào có thể lưu trữ hoặc xử lý nó hiệu quả.

Ví dụ về Big Data

Sau đây là một số ví dụ về Big Data

Ví dụ về Big Data - Dữ liệu thị trường chứng khoán Mỹ tạo ra

Ví dụ về Big Data - Dữ liệu thị trường chứng khoán Mỹ tạo ra


Sàn giao dịch chứng khoán New York tạo ra khoảng một terabyte dữ liệu giao dịch mới mỗi ngày.

Ví dụ về Big Data - Dữ liệu người dùng Upload lên Facebook

Ví dụ về Big Data - Dữ liệu người dùng Upload lên Facebook

Theo thống kê cho thấy 500+ terabyte dữ liệu mới được đưa vào cơ sở dữ liệu của Facebook mỗi ngày. Dữ liệu này chủ yếu được tạo ra về mặt tải lên hình ảnhvideo, trao đổi tin nhắn, comment, v.v.

Ví dụ về Big Data - Dữ liệu động cơ phản lực tạo ra

Ví dụ về Big Data - Dữ liệu động cơ phản lực tạo ra

Động cơ phản lực đơn có thể tạo ra hơn 10 terabyte dữ liệu trong 30 phút sau một chuyến bay. Với nhiều nghìn chuyến bay mỗi ngày, việc tạo ra dữ liệu lên tới nhiều Petabyte.

Có những loại Big Data nào?

Big Data có thể được tìm thấy dưới ba dạng:

  • Structured
  • Un structtured
  • Semi-structure


Dữ liệu có cấu trúc (Structured)


Bất kỳ dữ liệu nào có thể được lưu trữ, truy cập và xử lý ở dạng định dạng cố định được gọi là dữ liệu 'có cấu trúc' (Structured Data).

Theo thời gian, với các thành tựu khoa học máy tính ngày càng cao hơn trong việc phát triển các kỹ thuật để làm việc với loại dữ liệu đó (trong đó định dạng được biết đến trước) và cũng nhận được giá trị từ nó.

Tuy nhiên, ngày nay, chúng ta đang thấy trước các vấn đề khi kích thước của dữ liệu đó tăng lên rất lớn, kích thước bắt đầu lên tới nhiều zettabyte


  • Bạn có biết? 10^21 byte tương đương với 1 zettabyte hoặc một tỷ terabyte sẽ tạo thành một zettabyte.

Nhìn vào những số liệu này, người ta có thể dễ dàng hiểu tại sao cái tên 'BIG DATA' được đưa ra và thử tưởng tượng những thách thức liên quan đến việc lưu trữ và xử lý dữ liệu này.

  • Dữ liệu được lưu trữ trong hệ thống quản lý cơ sở dữ liệu quan hệ là một ví dụ về dữ liệu 'có cấu trúc'.

​Ví dụ về dữ liệu có cấu trúc:

Bảng 'Employee' trong cơ sở dữ liệu là một ví dụ về Dữ liệu có cấu trúc


Ví dụ về Big Data - Dữ liệu có cấu trúc

Ví dụ về Big Data - Dữ liệu có cấu trúc

Dữ liệu phi cấu trúc (Unstructure Data)


Bất kỳ dữ liệu nào có dạng không xác định hoặc cấu trúc được phân loại là dữ liệu phi cấu trúc.

Ngoài kích thước khổng lồ, dữ liệu không có cấu trúc đặt ra nhiều thách thức về mặt xử lý để lấy giá trị từ nó.

Ví dụ điển hình của dữ liệu phi cấu trúc là: Nguồn dữ liệu không đồng nhất chứa kết hợp các tệp văn bản, hình ảnh, video v.v ...

Bây giờ, một tổ chức ngày nay có sẵn rất nhiều dữ liệu với họ nhưng thật không may họ không biết cách lấy ra giá trị từ đó dữ liệu này ở dạng thô hoặc định dạng không có cấu trúc.


Ví dụ về dữ liệu phi cấu trúc

Chúng ta hãy thử tìm kiếm từ khóa Hadoop Big Data trên Google Search, kết quả trả về như sau:


Ví dụ về Big Data - Dữ liệu phi cấu trúc

Ví dụ về Big Data - Dữ liệu phi cấu trúc

Bạn cũng sẽ nhận ra ngay, kết quả trả về với các bài viết, liên kết, hình ảnh và cả video nữa. Vậy thì với dữ liệu về "hadoop big data" được tìm thấy đa dạng như vậy, khai thác chúng thành dữ liệu có giá trị rất khó.


Dữ liệu bán cấu trúc (Semi-Structure Data)

Dữ liệu bán cấu trúc có thể chứa cả các dạng dữ liệu được định dạng. Chúng ta có thể thấy dữ liệu bán cấu trúc như một cấu trúc được phân tầng nhưng thực tế nó không được xác định.

Dữ liệu bán cấu trúc là dữ liệu được biểu thị trong tệp XML.

Ví dụ về dữ liệu bán cấu trúc


Dữ liệu cá nhân được lưu trữ trong tệp XML

<rec><name>Prashant Rao</name><sex>Male</sex><age>35</age></rec>
<rec><name>Seema R.</name><sex>Female</sex><age>41</age></rec>
<rec><name>Satish Mane</name><sex>Male</sex><age>29</age></rec>
<rec><name>Subrato Roy</name><sex>Male</sex><age>26</age></rec>
<rec><name>Jeremiah J.</name><sex>Male</sex><age>35</age></rec>


Tăng trưởng dữ liệu qua các năm

Biểu đồ tăng trưởng dữ liệu qua các năm

Biểu đồ tăng trưởng dữ liệu qua các năm

Xin lưu ý rằng dữ liệu ứng dụng web không có cấu trúc, bao gồm các tệp nhật ký, tệp lịch sử giao dịch, vv... Các hệ thống OLTP được xây dựng để làm việc với dữ liệu có cấu trúc trong đó dữ liệu được lưu trữ trong các mối quan hệ (bảng)

Đặc điểm của BIG DATA

Chúng ta có thể hiểu về dữ liệu lớn qua 4V: Volume, Variety, Velocity, Variability

1. Volume: Khối lượng của dữ liệu


Cái tên "Big Data" đã có liên quan đến kích thước rất lớn. Kích thước của dữ liệu đóng vai trò rất quan trọng trong việc xác định giá trị của dữ liệu.

Ngoài ra, việc một dữ liệu cụ thể có thực sự được coi là Dữ liệu lớn hay không, phụ thuộc vào khối lượng dữ liệu. Do đó, 'Khối lượng' là một đặc điểm cần được xem xét khi xử lý 'Big Data'.

2. Variety: Sự đa dạng của dữ liệu


Sự đa dạng nói đến việc các nguồn dữ liệu không đồng nhất và bản chất, cả có cấu trúc và phi cấu trúc.

Trước đây, bảng tính và cơ sở dữ liệu là nguồn dữ liệu duy nhất được xem xét bởi hầu hết các ứng dụng.

Ngày nay, dữ liệu dưới dạng email, ảnh, video, thiết bị giám sát, PDF, âm thanh, v.v. cũng đang được xem xét trong các ứng dụng phân tích.

Sự đa dạng của dữ liệu phi cấu trúc này đặt ra một số vấn đề nhất định cho việc lưu trữ, khai thác (mining) và phân tích dữ liệu (Analysing Data).

3. Velocity: Tốc độ tạo ra dữ liệu vô cùng nhanh.


Dữ liệu được tạo và xử lý nhanh như thế nào để đáp ứng nhu cầu, xác định tiềm năng thực sự trong dữ liệu.

4. Variability: Dữ liệu đôi khi không nhất quản do đó cản trở quá trình xử lý và quản lý dữ liệu hiệu quả.

05 Lợi ích của xử lý dữ liệu lớn

Khả năng xử lý 'Dữ liệu lớn' mang lại nhiều lợi ích, chẳng hạn như:

Lợi ích 1. Doanh nghiệp có thể phân tích dữ liệu để đưa ra quyết định đúng đắn


Truy cập dữ liệu xã hội từ các công cụ tìm kiếm và các trang web như facebook, twitter đang cho phép các tổ chức điều chỉnh chiến lược kinh doanh của họ phù hợp với nhiều người hơn.

Lợi ích 2. Dịch vụ khách hàng được cải thiện

Các hệ thống phản hồi khách hàng truyền thống đang được thay thế bằng các hệ thống mới được thiết kế với công nghệ 'Big Data'.

Trong các hệ thống mới này, Big Data và công nghệ xử lý ngôn ngữ tự nhiên đang được sử dụng để đọc và đánh giá phản hồi của người tiêu dùng.

Lợi ích 3. Xác định sớm rủi ro đối với sản phẩm / dịch vụ, nếu có

Lợi ích 4. Hoạt động kinh doanh hiệu quả hơn

Công nghệ 'Big Data' có thể được sử dụng để tạo khu vực tổ chức hoặc khu vực hạ cánh cho dữ liệu mới trước khi xác định dữ liệu nào sẽ được chuyển đến kho dữ liệu.

Ngoài ra, việc tích hợp Data Warehouse và Big Data giúp tổ chức giảm tải dữ liệu truy cập không thường xuyên.

>>> Nếu doanh nghiệp bạn đang muốn phát triển kinh doanh hơn nữa nhờ Big Data thì hãy đăng ký ngay khóa đào tạo Big Data with Hadoop and Spark dành cho doanh nghiệp của NIIT - ICT Hà Nội.


Tổng kết

Như vậy là bạn đã hiểu qua về Big Data là gì, đặc điểm của Big Data và các lợi ích khi sử dụng Big Data. Bài tiếp theo chúng ta sẽ bắt đầu tìm hiểu về Hadoop.
Bình luận Facebook
Đăng ký tư vấn
Nhân viên gọi điện tư vấn miễn phí sau khi đăng ký
Được cập nhật các ưu đãi sớm nhất
Hotline: 0383180086
Tên không được để trống
Số điện thoại không được để trống
Email không được để trống
Hãy đăng ký để nhận những thông tin mới nhất về học bổng mới nhất tại NIIT - ICT Hà Nội
top
Đóng lại Đăng ký học tại NIIT - ICT Hà Nội
6260+ học viên đã theo học tại NIIT - ICT Hà Nội và có việc làm tốt trong ngành lập trình. Nắm lấy cơ hội ngay hôm nay!
Chọn khóa học
  • KHÓA HỌC LẬP TRÌNH FRONT END VỚI REACT.JS
  • KHÓA HỌC LẬP TRÌNH PHP WEB
  • Khóa học PHP Full stack [2023] cho người mới bắt đầu
  • Khóa học BIG DATA với Hadoop và Spark
  • Khóa học Lập trình Android tại Hà Nội
  • [Tuyển sinh 2023] Lập trình viên Quốc tế DigiNxt
  • Khóa học Tiền lương & Phúc lợi (C&B Excel) tại Hà Nội
  • LẬP TRÌNH GAME
    • Khóa học Lập trình Game Unity
  • LẬP TRÌNH WEB FRONT END
    • KHÓA HỌC PYTHON HƯỚNG ĐỐI TƯỢNG
    • KHÓA HỌC ANGULAR & TYPESCRIPT (FRONT END)
  • LẬP TRÌNH WEB BACK END
    • LẬP TRÌNH JAVA WEB VỚI FRAME WORK
    • Lập trình Web với Django
    • Lập trình PHP với Laravel Framework
  • CHƯƠNG TRÌNH ĐÀO TẠO ỨNG DỤNG CÔNG NGHỆ
    • Khóa học Tiền lương & Phúc lợi (C&B Excel) tại TP HCM
  • LẬP TRÌNH WEB FULL STACK
    • Khóa học Java Full stack (IJFD)
  • LẬP TRÌNH MOBILE
    • FRONT-END VỚI REACTJS VÀ REACT NATIVE
    • Lập trình Android Nâng cao
  • ĐÀO TẠO CHO DOANH NGHIỆP
    • KHÓA HỌC BUSINESS ANALYSIC TỪ CƠ BẢN ĐẾN NÂNG CAO 2023
    • Khóa học Magento: Làm chủ CMS TMĐT lớn nhất
    • Khóa học IOT: Xây dựng Sản phẩm IOT với Raspberry Pi
    • Khóa học Automation Testing Chuyên nghiệp
  • KHÓA HỌC DỰ ÁN
    • Học sử dụng bộ Office: Word, Excel, Power Point, Mail chuyên nghiệp
  • KHÓA HỌC KHÁC
    • VBA Excel Toàn Tập (Cơ Bản - Nâng Cao)
    • VBA Excel Nâng cao
    • Khóa học JMeter: Performance Testing
    • Khóa học Tester đạt chuẩn Quốc tế ISTQB Foundation Level
    • Khoá Học Tester đạt chuẩn quốc tế ISTQB Advanced Level
Bạn chưa chọn khóa học cần đăng ký
Tên không được để trống
Số điện thoại không được để trống
Email không được để trống
Đăng ký học thành công!
Cảm ơn bạn đã đăng ký học tại NIIT - ICT HÀ NỘI!