Tổng hợp những nguồn datasets dành cho Machine Learning
30th, August, 2021
Chìa khóa để thành công trong lĩnh vực machine learning (học máy) hoặc trở thành một nhà khoa học dữ liệu thành công là thực hành với các loại bộ dữ liệu (datasets) khác nhau. Nhưng việc có được một tập dữ liệu phù hợp cho từng loại dự án học máy là một nhiệm vụ khó khăn. Trong chủ đề này, chúng ta sẽ xem qua các nguồn datasets có sẵn (và miễn phí) từ đó bạn có thể dễ dàng sử dụng cho dự án của mình.
Trước khi đi đến các nguồn của tập dữ liệu học máy, chúng ta hãy xem datasets là gì và tại sao ta lại cần datasets.
Datasets – tập dữ liệu là gì?
Dataset là một tập hợp dữ liệu. Nói cách khác, dataset tương ứng với nội dung của một bảng cơ sở dữ liệu hoặc một ma trận dữ liệu thống kê, trong đó mỗi cột của bảng đại diện cho một biến cụ thể và mỗi hàng tương ứng với một thành viên nhất định của tập dữ liệu được đề cập.
Trong các dự án Máy học, chúng ta cần một tập dữ liệu đào tạo. Đây là tập dữ liệu thực tế được sử dụng để huấn luyện mô hình thực hiện các hành động khác nhau.
Tại sao cần datasets trong machine learning?
Machine learning phụ thuộc rất nhiều vào dữ liệu, không có dữ liệu thì AI (Artificial Intelligence – trí tuệ nhân tạo) không thể học được. Đó là khía cạnh quan trọng nhất giúp cho việc đào tạo thuật toán có thể thực hiện được. Cho dù bạn có một team AI với tập hợp nhiều nhân tài hay quy mô tập dữ liệu của bạn đến đâu, nếu tập dữ liệu của bạn không đủ tốt, toàn bộ dự án AI của bạn sẽ thất bại.
Trong quá trình phát triển AI, chúng ta luôn dựa vào dữ liệu. Từ đào tạo, điều chỉnh, lựa chọn mô hình đến kiểm tra, chúng ta sử dụng ba bộ dữ liệu khác nhau: bộ đào tạo (training set), bộ xác thực (validation set) và bộ thử nghiệm (testing set). Validation set được sử dụng để chọn và điều chỉnh mô hình machine learning cuối cùng.
Bạn có thể nghĩ rằng việc thu thập dữ liệu là đủ nhưng thực tế thì ngược lại. Trong mọi dự án AI, việc phân loại và gắn nhãn các tập dữ liệu chiếm phần lớn thời gian của chúng ta, đặc biệt là các tập dữ liệu đủ chính xác để phản ánh tầm nhìn thực tế về thị trường hay thế giới.
Các loại tập dữ liệu dùng trong học máy
Có 3 loại datasets dùng trong machine learning:
Bộ dữ liệu huấn luyện – training set
Tập dữ liệu huấn luyện là tập dùng để huấn luyện thuật toán hiểu cách áp dụng các khái niệm như mạng nơ-ron, để học và tạo ra kết quả. Nó bao gồm cả dữ liệu đầu vào và đầu ra dự kiến.
Tập hợp đào tạo chiếm phần lớn trong tổng số dữ liệu, khoảng 60%. Trong thử nghiệm, các mô hình phù hợp với các thông số trong một quá trình được gọi là điều chỉnh trọng lượng (adjusting weights).
Bộ xác thực – Validation set
Để mô hình được đào tạo, nó cần được đánh giá định kỳ và đó chính xác là mục đích của bộ xác thực (valiation set). Thông qua việc tính toán tổn thất (tức là tỷ lệ lỗi) mà mô hình mang lại trên bộ xác thực tại bất kỳ điểm nào đã cho, chúng ta có thể biết độ chính xác của nó. Đây là bản chất của đào tạo. Sau đó, mô hình sẽ điều chỉnh các tham số của nó dựa trên kết quả đánh giá thường xuyên trên valiation set.
Bộ xác thực chiếm khoảng 20 phần trăm phần lớn dữ liệu được sử dụng.
Bộ dữ liệu thử nghiệm – testing set
Tập dữ liệu thử nghiệm được sử dụng để đánh giá thuật toán của bạn được đào tạo tốt như thế nào với tập dữ liệu đào tạo. Trong các dự án AI, chúng ta không thể sử dụng tập dữ liệu đào tạo trong giai đoạn thử nghiệm vì thuật toán sẽ biết trước kết quả mong đợi không phải là mục tiêu của chúng tôi.
Bộ kiểm tra đại diện cho 20% dữ liệu. Bộ thử nghiệm được đảm bảo là dữ liệu đầu vào được nhóm lại cùng với các đầu ra chính xác đã được xác minh, nói chung là do con người xác minh.
Các nguồn datasets dành cho Machine Learning
Top 10 các nguồn datasets cho machine learning
1.Kaggle
Kaggle, được cập nhật bởi cộng đồng những người làm việc trong lĩnh vực ML, AI mỗi ngày, là một trong những thư viện tập dữ liệu trực tuyến lớn nhất.
Kaggle là một nền tảng học máy dựa vào cộng đồng. Website này chứa rất nhiều hướng dẫn bao gồm hàng trăm vấn đề machine learning trong cuộc sống thực khác nhau. Tất nhiên bạn không thể kỳ vọng chất lượng của dữ liệu là tốt giống nhau. Tuy nhiên, tất cả các dữ liệu là hoàn toàn miễn phí. Bạn cũng có thể tải tập dữ liệu của riêng mình lên đó.
2. Papers with Code
Papers With Code là một tài nguyên hữu ích và độc đáo về các nghiên cứu các xu hướng về machine learning cùng với code để triển khai. Trang web được tạo ra bởi Robert Stojnic, Giám đốc điều hành Atlas ML, hay còn gọi là “rstoj” trên bảng máy học của Reddit. Papers With Code cũng cho phép người dùng đối sánh một bài báo máy học trên arXiv với code của nó trên GitHub, điều này có thể giúp xem lại nội dung từ các góc độ khác nhau.
Bạn có thể download hơn 3,000 datasets trên Pappers With Code.
3. UCI Machine Learning Repository
UCI Machine Learning Repository (Kho lưu trữ Học máy UCI) là một trong những nguồn tập dữ liệu lâu đời nhất trên web và là điểm dừng đầu tiên tuyệt vời khi tìm kiếm các tập dữ liệu thú vị. Mặc dù tập dữ liệu do người dùng đóng góp và do đó có các mức độ sạch khác nhau, nhưng đại đa số đều tốt. Bạn có thể tải xuống dữ liệu trực tiếp từ kho UCI Machine Learning mà không cần đăng ký.
4. Registry of Open Data on AWS
Trong Sổ đăng ký dữ liệu mở trên AWS (Registry of Open Data on AWS) , bất kỳ ai cũng có thể chia sẻ tập dữ liệu hoặc tìm tập dữ liệu họ cần. Bạn có thể thực hiện nghiên cứu dựa trên dữ liệu bạn tìm thấy với sự trợ giúp của các công cụ phân tích dữ liệu của Amazon. Trong số những người tạo cơ sở dữ liệu, bạn sẽ tìm thấy Dữ liệu Facebook Tốt (Facebook Data for Good) , Thỏa thuận Đạo luật Không gian của NASA (NASA Space Act Agreement) và Viện Khoa học quản lý Kính viễn vọng Không gian (Space Telescope Science Institute).
5. Google Dataset Search
Công cụ tìm kiếm tập dữ liệu của Google (Google dataset search engine) là công cụ tìm kiếm được Google ra mắt vào ngày 5 tháng 9 năm 2018. Nguồn này giúp các nhà nghiên cứu có được các tập dữ liệu trực tuyến có sẵn miễn phí để sử dụng. Bạn cũng có thể tìm thấy bộ dữ liệu được tải lên bởi các tổ chức quốc tế như Tổ chức Y tế Thế giới, Statista và Harvard.
Kết luận
Các bộ dữ liệu là không thể thiếu trong các dự án về máy học. Có thể có những trùng lắp trong các danh sách trong bài nhưng hy vọng bạn có thể tìm được những bộ dữ liệu mình cần.