LLM Course

0. Configuration

1. Les transformers

2. Utilisation de 🤗 Transformers

3. Finetuner un modèle pré-entraîné

4. Partager des modèles et des tokenizers

5. La bibliothèque 🤗 Datasets

Introduction Que faire si mon jeu de données n'est pas sur le Hub ?Il est temps de trancher et de découper Données massives ? 🤗 Datasets à la rescousse !Création de votre propre jeu de données Recherche sémantique avec FAISS 🤗 Datasets, coché !Quiz de fin de chapitre

6. La bibliothèque 🤗 Tokenizer

7. Les principales tâches en NLP

8. Comment demander de l'aide

9. Construire et partager des démos

Evènements liés au cours

Glossaire

Join the Hugging Face community

and get access to the augmented documentation experience

Collaborate on models, datasets and Spaces

Faster examples with accelerated inference

Switch between documentation themes

to get started

Quiz de fin de chapitre

Ce chapitre a couvert beaucoup de terrain ! Ne vous inquiétez pas si vous n’avez pas saisi tous les détails, les chapitres suivants vous aideront à comprendre comment les choses fonctionnent sous le capot.

Avant de poursuivre, testons ce que vous avez appris dans ce chapitre.

1. La fonction load_dataset() dans 🤗 Datasets vous permet de charger un jeu de données depuis lequel des emplacements suivants ?

Localement, par exemple depuis son ordinateur portable. Le Hub d’Hugging Face. Un serveur distant.

2. Supposons que vous chargiez l’une des tâches du jeu de données GLUE comme suit :

from datasets import load_dataset

dataset = load_dataset("glue", "mrpc", split="train")

Laquelle des commandes suivantes produira un échantillon aléatoire de 50 éléments à partir de dataset ?

dataset.sample(50) dataset.shuffle().select(range(50)) dataset.select(range(50)).shuffle()

3. Supposons que vous disposiez d’un jeu de données sur les animaux domestiques appelé pets_dataset qui comporte une colonne name indiquant le nom de chaque animal. Parmi les approches suivantes, laquelle vous permettrait de filtrer le jeu de données pour tous les animaux dont le nom commence par la lettre « L » ?

pets_dataset.filter(lambda x : x['name'].startswith('L')) pets_dataset.filter(lambda x['name'].startswith('L')) Créer une fonction comme def filter_names(x): return x['name'].startswith('L') et exécuter pets_dataset.filter(filter_names).

4. Qu’est-ce que le memory mapping ?

Un mapping entre la RAM CPU et GPU. Un mapping entre la RAM et le stockage du système de fichiers. Un mapping entre deux fichiers dans le cache 🤗 Datasets.

5. Parmi les éléments suivants, lesquels sont les principaux avantages du memory mapping ?

L'accès aux fichiers mappés en mémoire est plus rapide que la lecture ou l'écriture sur le disque. Les applications peuvent accéder à des segments de données dans un fichier extrêmement volumineux sans avoir à lire tout le fichier dans la RAM au préalable. Cela consomme moins d'énergie, donc votre batterie dure plus longtemps.

6. Pourquoi le code suivant échoue-t-il ?

from datasets import load_dataset

dataset = load_dataset("allocine", streaming=True, split="train")
dataset[0]

Il essaie de streamer un jeu de données trop volumineux pour tenir dans la RAM. Il essaie d'accéder à un IterableDataset. Le jeu de données allocine n'a pas d’échantillon train.

7. Parmi les avantages suivants, lesquels sont les principaux pour la création d’une fiche pour les jeux de données ?

Elle fournit des informations sur l'utilisation prévue ainsi que les tâches prises en charge de jeu de données. Le but est que d'autres membres de la communauté puissent prendre une décision éclairée quant à son utilisation. Elle permet d'attirer l'attention sur les biais présents dans un corpus. Cela augmente les chances que d'autres membres de la communauté utilisent mon jeu de données.

8. Qu’est-ce que la recherche sémantique ?

Un moyen de rechercher des correspondances exactes entre les mots d'une requête et les documents d'un corpus. Un moyen de rechercher des documents correspondants en comprenant la signification contextuelle d'une requête. Un moyen d'améliorer la précision de la recherche.

9. Pour la recherche sémantique asymétrique, vous avez généralement :

Une requête courte et un paragraphe plus long qui répond à la requête. Requêtes et paragraphes qui sont à peu près de la même longueur. Une longue requête et un paragraphe plus court qui répond à la requête.

10. Puis-je utiliser 🤗 Datasets pour charger des données à utiliser dans d’autres domaines, comme le traitement de la parole ?

Non. Oui.

Update on GitHub

←🤗 Datasets, coché !

Next chapter

Quiz de fin de chapitre 1. La fonction load_dataset() dans 🤗 Datasets vous permet de charger un jeu de données depuis lequel des emplacements suivants ?2. Supposons que vous chargiez l’une des tâches du jeu de données GLUE comme suit :3. Supposons que vous disposiez d’un jeu de données sur les animaux domestiques appelé pets_dataset qui comporte une colonne name indiquant le nom de chaque animal. Parmi les approches suivantes, laquelle vous permettrait de filtrer le jeu de données pour tous les animaux dont le nom commence par la lettre « L » ?4. Qu’est-ce que le memory mapping ?5. Parmi les éléments suivants, lesquels sont les principaux avantages du memory mapping ?6. Pourquoi le code suivant échoue-t-il ?7. Parmi les avantages suivants, lesquels sont les principaux pour la création d’une fiche pour les jeux de données ?8. Qu’est-ce que la recherche sémantique ?9. Pour la recherche sémantique asymétrique, vous avez généralement :10. Puis-je utiliser 🤗 Datasets pour charger des données à utiliser dans d’autres domaines, comme le traitement de la parole ?