Classification
La CAH est une méthode de classification qui permet de mettre en évidence un regroupement « naturel » d’un ensemble d’individus décrits par des caractéristiques (les variables). Dans notre cas cette méthode d’analyse est très intéressante. Elle permet de mettre en évidence les liens qui peuvent exister entre les différentes épreuves d’athlétisme et notamment toutes les épreuves disputées par des décathloniens. Ces sportifs ont pour caractéristiques de concourir lors de dix épreuves avec plus ou moins de similitudes.
Le principal avantage de la CAH par rapport aux autres méthodes de classification réside dans cette représentation sous forme d’arbre qui met en évidence une information supplémentaire : l’augmentation de la dispersion dans un groupe produit par une agrégation. L’utilisateur peut dès lors avoir une idée du nombre adéquat de classes en choisissant la partition correspondant au saut le plus élevé dans l’augmentation de la dispersion au sein des classes.
Le principal inconvénient de la CAH est qu’elle nécessite le calcul des distances entre individus pris deux à deux. Ce qui est très rapidement prohibitif dès que la taille du fichier excède le millier d’individus.
La première étape de notre étude consiste à définir le nombre de classes existantes dans notre population à l’aide d’un dendrogramme.
Nous avons choisi de regrouper les données en 4 classes distinctes ; deux petites et deux autres un peu plus grandes :
- Classe 1 : 6 athlètes (20, 10, 18, 7, 4 et 11).
- Classe 2 : 11 athlètes (6, 5, 13, 1, 14, 12, 15, 8, 9, 2 et 3).
- Classe 3 : 5 athlètes (17, 28, 30, 31 et 32).
- Classe 4 : 11 athlètes (26, 24, 25, 21, 22, 16, 23, 33, 29, 19 et 27).
Notre choix s’explique par le fait que le nombre d’individus n’est pas important (33) mais aussi de par nos connaissances. En effet le décathlon est une discipline regroupant trois ou quatre catégories principales d’activités. On sait qu’il y a des activités de