Help Center›Datasets›Exploring and Using Public Datasets

Exploring and Using Public Datasets

Last updated July 1, 2024

Introduction: Public datasets available on Hugging Face cover a wide range of applications, from natural language processing to computer vision. This guide will help you explore and use these datasets effectively for your machine learning projects.

Steps:

Accessing Public Datasets

Visit the Datasets Hub: Navigate to the Hugging Face Datasets Hub to explore available datasets.
Search and Filter: Use the search bar and filters to find datasets relevant to your task, such as text classification, image recognition, or audio processing.

Loading a Dataset Install the Datasets Library: pip install datasets Load a Dataset in Python: from datasets import load_dataset dataset = load_dataset('dataset_name') Example: dataset = load_dataset('imdb') 3. Exploring Dataset Content View Dataset Structure: print(dataset) Accessing Specific Splits: train_dataset = dataset['train'] print(train_dataset[0]) 4. Using Dataset Features Tokenize Text Data

from transformers import AutoTokenizer tokenizer = AutoTokenizer.from_pretrained('bert-base-uncased') tokenized_dataset = dataset.map(lambda x: tokenizer(x['text'], padding="max_length", truncation=True)) Visualize Data: import matplotlib.pyplot as plt plt.hist([len(x['text']) for x in dataset['train']], bins=20) plt.show()

Was this article helpful?

Related articles

Exploring and Using Public Datasets