Remarques préliminaires

Ce document a pour but de vous donner les informations nécessaires pour faciliter votre démarrage avec R; ses informations seront complétées ultérieurement dans les pages spécifiques aux analyses; sur cette page il ne s'agit pas du tout d'apprendre à faire des analyses, donc les fonctions statistiques utilisées ici ne servent que d'exemple technique illustratif....

Attention: R distingue entre minuscules et majuscules, ainsi "mean" et "Mean" ne se réfèrent pas au même objet.

Si ce n'est pas encore fait, lisez d'abord les informations générales sur R.

Langue
Introduction

R est un environnement de programmation très riche et que la présentation de tous ses aspects dépasse très largement l'objectif de ces documents, cependant si cela vous intéresse toute l'information sur R est facile d'accès (information en ligne, information sur le Web).

Après avoir lancé R vous verrez un écran comme celui ci-dessous. RGUI est une interface simple au langage R, les menus proposés se limitent à l'essentiel, mais cela mérite d'être présenté brièvement. Il est important de comprendre que R est un langage de programmation et que tout ce que vous pouvez faire par menu est bien sûr aussi disponible par commande.

Sur cette copie d'écran vous voyez aussi le menu fichier; la seule option qui nous intéresse pour l'instant est Load workspace... qui permet de lire un espace de travail (workspace) de R. Un workspace correspond à une collection d'objets sauvegardés à un moment donnée (variables, objets etc) et reflète simplement l'état de R à un moment donné. Dans l'exemple suggéré le "workspace" s'appelle monde (monde.rdata); si cela n'est pas encore fait téléchargez le depuis ici [monde.rdata]. [Quand vous démarrez R, il charge automatiquement l'espace de travail par défaut; il s'appelle .RData et se trouve dans le répertoire par défaut, donc si vous souhaitez utiliser notre jeu de données d'exemple sans avoir besoin de le lire à chaque session, il suffira de le sauvegarder en remplaçant le espace de travail par défaut.]

Pour suivre les explications qui suivent, lisez cette espace de travail en utilisant justement Load workspace....

Bien que dans notre cas le workspace ne contienne que les données sur les pays, il ne faut pas le confondre avec un fichier ordinaire (tel qu'un fichier SAS ou EXCEL), c'est un ensemble de variables, objets etc. Dans notre cas c'est l'objet pays qui correspond à la matrice de données usuelle.

Vous pouvez afficher le contenu de cet objet en tapant simplement pays (Le résultat n'est pas très lisible, mais vous verrez quand même qu'il s'agit d'un tableau de données usuelles avec les variables en colonne et les observations en ligne.

R connaît beaucoup d'objets et bien sûr les objets mathématiques usuelles (scalaires, vecteurs, matrices...), dans notre cas il s'agit d'un data frame, un objet très versatile qui peut contenir des matrices de données, des attributs de variables etc.

Avertissement: Comme les fonctions statistiques en R correspondent à des programmes (macros) souvent écrits en R par la communauté des utilisateurs, il peut y parfois avoir incompatibilité entre certaines macros et des structures telles que des data frames. Ceci ne devrait pas vous poser des problèmes si vous suivez les exemples ici, mais si vous explorez R, il se peut que vous tombiez sur une telle fonction. Sachez simplement que vous pourriez toujours créer l'objet nécessaire on utilisant soit des fonctions de conversion soit, si nécessaire, en créant la variable ou matrice nécessaire par extraction....

Premières commandes et informations utiles

Voici en bref quelques informations importantes, illustré par des exemples:

Bibliothèques R

R (et S) étant un langage de programmation, les fonctions statistiques usuelles sont des programmes écrits dans ce langage, donc si vous tapez par exemple stem(urb) vous exécutez la fonction stem(). D'ailleurs si vous tapez simplement stem sans arguments R vous affichera simplement le code de la fonction...

Comme l'univers R (et S - car les fonctions sont pour l'immense majorité compatibles) comporte un nombre impressionnant de fonctions. Les différents fonctions et objets (par exemple des données d'exemples) sont organisées en bibliothèques (packages, libraries); certaines de ces bibliothèques sont chargées d'office, d'autre doivent être activées.

Si vous activez le menu correspondant Load Package, R vous donne la liste de toutes le bibliothèques accesibles. Cette opération sera nécessaire pour accéder certaines fonctions que nous utiliserons ultérieurement (la documentation le mentionnera. Pour l'instant notez simplement que si un exemple qui semble correct ne marche pas, il se pourrait que le package qui contient la fonction ne soit simplement pas chargé.

Sur la copie d'écran vous observerez qu'il est possible d'installer des packages depuis l'internet; ceci accède le serveur CRAN qui est le dépôt officiel de la communeauté, mais vous en trouverez d'autres macros publiés sur le Web.

Une conséquence potentiellement troublante de l'architecture de R est le fait qu'il est possible de remplacer n'importe quelle fonction par une autre, ainsi il peut vous arriver qu'une fonction produise les résultats d'une certaine façon et qu'après avoir chargé un package spécifique un appel identique à la fonction produise les résultats différemment; ceci est particulièrement vrai avec les fonctions graphiques qui, dans la version de base sont souvent relativement simples, ont souvent été remplacés par des versions plus puissantes dans certains packages. Il est aussi important de noter qu'un package ne contient pas simplement des fonctions, mais également la documentation y relative, ainsi que souvent des exemples et parfois des données pour les exemples.

Fenêtres graphiques

La copie d'écran montre les différentes fenêtres R.

  1. La fenêtre console s'ouvre dès que vous appelez R et elle sert à la fois à la saisie des commandes et à la sortie des résultats textuels.
  2. Les fonctions graphiques produisent des fenêtres graphiques séparés.

Dans notre exemple vous verrez, en examinant la console, la séquence qui a produit les fenêtres visibles:

  1. help(hist) a ouvert une page d'aide non-visible sur la copie d'écran.
  2. hist(pays) dans la fenêtre console a produit un message d'erreur, simplement parce que pays est un data frame, et la fonction hist attend un vecteur, d'où la dernière commande hist(urb) qui elle a produit le graphique. Notez que chaque fonction graphique crée une nouvelle fenêtre, à l'exception de fonctions spécifiques dont l'objectif est de modifier le graphique actif.

Si une fenêtre graphique est active, le menu File vous donne toute un série de possibilités pour sauvegarder le graphique en question:

Aide et documentation

Sachez qu'il existe une documentation abondante concernant R, dont une bonne partie est directement accessible par le menu (voir illustration ci-dessous); apprenez à l'utiliser).

Bien sûr la plupart des fonctionalités sont accessibles également par une fonction, ainsi la fonction help(stem) affiche la page d'aide concernant cette fonction.

Notez que pour comprendre certaines fonctions statistiques évoluées il sera nécessaire de lire les publications citées dans l'aide....

Pour plus facilement apprendre R deux autres fonctions sont fort pratiques:

PS. R étant un effort communeautaire, la qualité de la documentation et des exemples dépend bien sûr de l'effort et de la clarté de son auteur...