Créer 4 Visualisations avec Python qui peuvent fournir plus d’informations que Word Cloud
Word cloud est une visualisation qui peut afficher une collection de mots récupérés dans un texte ou un document. Habituellement, la taille et la couleur du texte sont utilisées dans Word Cloud pour montrer la fréquence des mots. Le résultat peut attirer l’attention des gens à première vue.
Parlant des caractéristiques du Word Cloud, comparons les deux graphiques ci-dessous. Le premier est un Word Cloud contenant les 100 premiers mots d’un article. Le second est un graphique à barres comparant la quantité de ces mêmes 100 mots. On peut remarquer que les mots dans le graphique en barres sont difficiles à lire. D’autre part, on peut voir que le nuage de mots est bon pour gérer de nombreux mots.
Cependant, le Word Cloud a quelques inconvénients. Il est difficile de dire quel mot apparaît plus souvent que les autres lorsqu’on a affaire à un trop grand nombre de mots. De plus, un document est généralement composé de sections, comme des paragraphes ou des chapitres. Word Cloud ne montre que la fréquence des mots dans l’ensemble du document. Il manque de fournir des détails dans chaque section. Lisez aussi cet article sur le nuage de mots gratuit, suivez le lien.
1. Transformer plusieurs diagrammes à barres en une grille de diagrammes à barres.
Comme nous l’avons déjà mentionné, un simple diagramme à barres a une limite d’affichage du texte en raison de la petite zone de texte. Nous pouvons les réorganiser en créant plusieurs diagrammes à barres et en les combinant pour gagner de l’espace.
2. Augmentation de la hiérarchie du diagramme de donut au graphique Sunburst
La deuxième visualisation est le graphique Sunburst. Nous allons commencer par un Donut chart qui a le même concept de base. Le code ci-dessous montre une façon simple de créer un Donut chart avec Plotly.
En conséquence, le donut chart est presque plein avec seulement 30 mots. Nous pouvons améliorer le donut chart en augmentant la hiérarchie du graphique d’un seul niveau à deux niveaux. Le premier niveau est le contenu, et le deuxième niveau est les 10 premiers mots de chaque contenu. Continuez à préparer les données.
Puis, créez un dictionnaire de couleurs à appliquer à chaque niveau.
En dernier lieu, tracez le graphique Sunburst. Une bonne chose à propos de l’utilisation de Plotly est que le graphique obtenu est interactif. Vous pouvez jouer avec le résultat en cliquant sur le contenu.
3. Utiliser des figures avec Treemap
Treemap est un excellent graphique pour visualiser des données hiérarchiques à l’aide de figures. Les données que nous avons jusqu’à présent sont prêtes pour tracer un Treemap.
4. Regroupement des bulles avec un Circle packing.
La dernière visualisation est le circle packing. Pratiquement, c’est un tracé de bulles sans zone de chevauchement. Nous utiliserons la bibliothèque circlify pour calculer la taille et la position des bulles. Placer le Circle packing avec les 30 premiers mots les plus apparents de l’article.