Python là một trong những ngôn ngữ lập trình phổ biến hiện nay, được sử dụng rộng rãi trong các lĩnh vực như khoa học dữ liệu, machine learning hay web development. Trong quá trình phân tích dữ liệu, việc hiển thị thông tin một cách trực quan có vai trò quan trọng trong việc giúp chúng ta hiểu rõ hơn về dữ liệu và đưa ra những kết luận chính xác.
Giới thiệu về các thư viện Matplotlib và Seaborn
Trong bài viết này, chúng ta sẽ tìm hiểu về cách sử dụng hai thư viện phổ biến trong việc tạo biểu đồ và biểu đồ mô tả dữ liệu trên python: Matplotlib và Seaborn.
Matplotlib
Matplotlib là một thư viện nổi tiếng và mạnh mẽ trong việc tạo ra các biểu đồ và biểu đồ mô tả dữ liệu trên python. Được phát triển bởi John Hunter vào năm 2002, cho phép người dùng tạo ra các loại biểu đồ đơn giản hoặc phức tạp với độ tùy chỉnh cao. Nó cũng hỗ trợ các loại biểu đồ khác nhau như đường, cột, barchart, scatter plot và nhiều hơn nữa.
Seaborn
Seaborn cũng là một thư viện tạo biểu đồ và biểu đồ dữ liệu cho python, được xây dựng trên nền tảng của Matplotlib. Với những tính năng tương tự nhưng lại có giao diện đơn giản và đẹp hơn, Seaborn được sử dụng rộng rãi trong lĩnh vực khoa học dữ liệu.
Cách cài đặt v import thư viện Matplotlib và Seaborn trong python
Để sử dụng được các tính năng của Matplotlib và Seaborn, ta cần cài đặt chúng thông qua pip - công cụ quản lý package của python. Đầu tiên, ta mở terminal (trên Mac OS) hoặc command prompt (trên windows) và nhập lệnh sau:
Sau khi thực hiện lệnh này, Matplotlib sẽ được cài đặt trên máy tính của bạn. Tương tự, để cài đặt Seaborn, ta nhập lệnh:
Sau khi hoàn tất việc cài đặt, ta có thể bắt đầu import thư viện vào trong một script python bằng cách sử dụng lệnh import như sau:
import matplotlib.pyplot as plt
# tạo bí danh cho module pyplot của Matplotlib
import seaborn as sns
# tạo bí danh cho module seaborn của Seaborn
Với việc đã import thư viện thành công, chúng ta có thể sử dụng các tính năng của hai thư viện này để tạo biểu đồ và biểu đồ mô tả dữ liệu.
Tạo biểu đồ đường sử dụng Matplotlib và Seaborn
Biểu đồ đường (line chart) là một loại biểu đồ thường được sử dụng để biểu diễn sự thay đổi của một biến theo thời gian. Đây là một trong những biểu đồ đơn giản nhất nhưng lại cực kỳ hữu ích trong việc hiển thị dữ liệu có xu hướng thay đổi theo thời gian. Chúng ta sẽ tạo một biểu đồ đường đơn giản bằng cách sử dụng Matplotlib và Seaborn.
Đầu tiên, chúng ta sẽ khai báo dữ liệu và lưu vào một list. Trong ví dụ này, ta sẽ sử dụng dữ liệu về số lượng sản phẩm bán được trong 6 tháng đầu tiên của năm.
# khai báo dữ liệu
months = [1,2,3,4,5,6]
products_sold = [1000, 1500, 2000, 3000, 3500, 4000]
Tiếp theo, ta sẽ sử dụng hàm plot() của Matplotlib để tạo biểu đồ đường. Đầu tiên là truyền vào trục x và sau đó là trục y.
# tạo biểu đồ đường bằng Matplotlib
plt.plot(months, products_sold)
Tuy nhiên, biểu đồ này chưa được đẹp mắt lắm và không có nhãn cho trục x và y. Để cải thiện điều này, chúng ta có thể sử dụng các hàm của Matplotlib để tùy chỉnh biểu đồ. Ví dụ, chúng ta có thể đặt tên cho các trục bằng cách sử dụng hàm xlabel() và ylabel(). Chúng ta cũng có thể đặt tiêu đề cho biểu đồ bằng hàm title().
# tùy chỉnh biểu đồ
plt.xlabel("Tháng")
plt.ylabel("Số lượng sản phẩm bán được")
plt.title("Doanh số bán hàng trong 6 tháng đầu năm")
Tuy nhiên, để biểu diễn dữ liệu một cách trực quan hơn, ta có thể sử dụng thư viện Seaborn. Với Seaborn, ta có thể dễ dàng tạo ra biểu đồ với giao diện đẹp hơn và nhiều tính năng tùy chỉnh hơn. Chúng ta có thể sử dụng hàm lineplot() của Seaborn để tạo biểu đồ đường với các thông số tương tự như hàm plot() của Matplotlib.
# tạo biểu đồ đường bằng Seaborn
sns.lineplot(x=months, y=products_sold)
Ta cũng có thể tùy chỉnh thêm màu sắc và kiểu đường trong biểu đồ bằng cách sử dụng các tham số color và linestyle. Ví dụ, ta có thể tạo một biểu đồ đường với đường nét đứt và màu đỏ hnhư sau:
# tùy chỉnh biểu đồ đường
sns.lineplot(x=months, y=products_sold, color="red", linestyle="--")
Tạo biểu đồ cột sử dụng Matplotlib và Seaborn
Biểu đồ cột (bar chart) là một loại biểu đồ được sử dụng để so sánh giá trị của các biến. Thường thì biểu đồ này được biểu diễn bằng các cột theo chiều ngang hoặc dọc. Chúng ta sẽ tạo một biểu đồ cột đơn giản bằng cách sử dụng Matplotlib và Seaborn.
Đầu tiên, chúng ta sẽ khai báo dữ liệu và lưu vào một list. Trong ví dụ này, ta sẽ sử dụng dữ liệu về doanh số bán hàng của 5 sản phẩm khác nhau trong năm vừa qua.
# khai báo dữ liệu
products = ["Sản phẩm A", "Sản phẩm B", "Sản phẩm C", "Sản phẩm D", "Sản phẩm E"]
sales = [5000, 8000, 10000, 12000, 15000]
Tiếp theo, chúng ta sẽ sử dụng hàm bar() của Matplotlib để tạo biểu đồ cột. Đầu tiên là truyền vào trục x và sau đó là trục y.
# tạo biểu đồ cột bằng Matplotlib
plt.bar(products, sales)
Tương tự như biểu đồ đường, biểu đồ cột cũng chưa được đẹp mắt lắm và không có nhãn cho các trục và tiêu đề. Ta có thể sử dụng các hàm của Matplotlib để tùy chỉnh biểu đồ như đã thực hiện trong phần tạo biểu đồ đường.
# tùy chỉnh biểu đồ
plt.xlabel("Sản phẩm")
plt.ylabel("Doanh số bán hàng")
plt.title("Doanh số bán hàng của 5 sản phẩm trong năm")
Tuy nhiên, để biểu diễn dữ liệu một cách trực quan hơn, ta có thể sử dụng thư viện Seaborn. Với Seaborn, ta có thể dễ dàng tạo ra các biểu đồ với giao diện đẹp hơn và tính năng tùy chỉnh cao hơn. Chúng ta có thể sử dụng hàm countplot() của Seaborn để tạo biểu đồ cột với các thông số tương tự như hàm bar() của Matplotlib.
# tạo biểu đồ cột bằng Seaborn
sns.countplot(x=products, data=sales)
Ta cũng có thể tùy chỉnh thêm màu sắc của các cột bằng cách sử dụng tham số color. Ví dụ, ta có thể tạo một biểu đồ cột với màu xanh lục như sau:
# tùy chỉnh biểu đồ cột
sns.countplot(x=products, data=sales, color="green")
Tạo biểu đồ hình tròn sử dụng Matplotlib và Seaborn
Biểu đồ hình tròn (pie chart) là một loại biểu đồ được sử dụng để biểu diễn tỷ lệ phần trăm của các thành phần trong một tổng thể. Chúng ta sẽ tạo một biểu đồ hình tròn đơn giản bằng cách sử dụng Matplotlib và Seaborn.
Đầu tiên, chúng ta sẽ khai báo dữ liệu và lưu vào một list. Trong ví dụ này, ta sẽ sử dụng dữ liệu về doanh số bán hàng của 3 khu vực khác nhau trong năm vừa qua.
# khai báo dữ liệu
regions = ["Khu vực A", "Khu vực B", "Khu vực C"]
sales = [50000, 80000, 100000]
Tiếp theo, chúng ta sẽ sử dụng hàm pie() của Matplotlib để tạo biểu đồ hình tròn. Đầu tiên là truyền vào dữ liệu cần hiển thị và sau đó là các thông số tùy chọn khác như màu sắc và nhãn.
# tạo biểu đồ hình tròn bằng Matplotlib
plt.pie(sales, labels=regions, colors=["red", "green", "blue"])
Tuy nhiên, để làm cho biểu đồ trở nên dễ hiểu hơn, ta có thể sử dụng thư viện Seaborn để tạo biểu đồ với giao diện đẹp hơn và các thông số tùy chỉnh cao hơn. Chúng ta có thể sử dụng hàm piechart() của Seaborn để tạo biểu đồ hình tròn với các thông số tương tự như hàm pie() của Matplotlib.
# tạo biểu đồ hình tròn bằng Seaborn
sns.piechart(x=regions, data=sales)
Ta cũng có thể tùy chỉnh thêm màu sắc của các phần trong biểu đồ bằng cách sử dụng các tham số colors. Ví dụ, ta có thể tạo một biểu đồ hình tròn với màu xanh dương cho phần của khu vực B như sau:
# tùy chỉnh biểu đồ hình tròn
sns.piechart(x=regions, data=sales, colors=["red", "blue", "green"])
Kết luận: Matplotlib và Seaborn là hai thư viện rất mạnh mẽ và được sử dụng rộng rãi trong việc tạo biểu đồ trong Python. Trong bài viết này, chúng ta đã tìm hiểu cách cài đặt v import thư viện Matplotlib và Seaborn, cùng với cách tạo biểu đồ đường, cột và hình tròn bằng cả hai thư viện này.