I. Éléments de base▲
I-A. Structure générale d'un programme▲
La transformation d'un texte écrit en langage C en un programme exécutable par l'ordinateur se fait en deux étapes : la compilation et l'édition de liens. La compilation est la traduction des fonctions écrites en C en des procédures équivalentes écrites dans un langage dont la machine peut exécuter les instructions. Le compilateur lit toujours un fichier, appelé fichier source, et produit un fichier, dit fichier objet.
Chaque fichier objet est incomplet, insuffisant pour être exécuté, car il contient des appels de fonctions ou des références à des variables qui ne sont pas définies dans le même fichier. Par exemple, le premier programme que vous écrirez contiendra déjà la fonction printf que vous n'aurez certainement pas écrite vous-même. L'édition de liens est l'opération par laquelle plusieurs fichiers objets sont mis ensemble pour se compléter mutuellement : un fichier apporte des définitions de fonctions et de variables auxquelles un autre fichier fait référence et réciproquement. L'éditeur de liens (ou linker ) prend en entrée plusieurs fichiers objets et bibliothèques (une variété particulière de fichiers objets) et produit un unique fichier exécutable. L'éditeur de liens est largement indépendant du langage de programmation utilisé pour écrire les fichiers sources, qui peuvent même avoir été écrits dans des langages différents.
Chaque fichier source entrant dans la composition d'un programme exécutable est fait d'une succession d'un nombre quelconque d'éléments indépendants, qui sont :
- des directives pour le préprocesseur (lignes commençant par #),
- des constructions de types (struct, union, enum, typedef),
- des déclarations de variables et de fonctions externes,
- des définitions de variables et
- des définitions de fonctions.
Seules les expressions des deux dernières catégories font grossir le fichier objet : les définitions de fonctions laissent leur traduction en langage machine, tandis que les définitions de variables se traduisent par des réservations d'espace, éventuellement garni de valeurs initiales. Les autres directives et déclarations s'adressent au compilateur et il n'en reste pas de trace lorsque la compilation est finie.
En C on n'a donc pas une structure syntaxique englobant tout, comme la construction « Program … end. » du langage Pascal ; un programme n'est qu'une collection de fonctions assortie d'un ensemble de variables globales. D'où la question : par où l'exécution doit-elle commencer ? La règle généralement suivie par l'éditeur de liens est la suivante : parmi les fonctions données il doit en exister une dont le nom est main. C'est par elle que l'exécution commencera ; le lancement du programme équivaut à l'appel de cette fonction par le système d'exploitation. Notez bien que, à part cela, main est une fonction comme les autres, sans aucune autre propriété spécifique ; en particulier, les variables internes à main sont locales, tout comme celles des autres fonctions. Pour finir cette entrée en matière, voici la version C du célèbre programme-qui-dit-bonjour, sans lequel on ne saurait commencer un cours de programmation1 :
#include <stdio.h>
int
main
(
) {
printf
(
"
Bonjour
\n
"
);
return
0
;
}
1Le programme montré ici est écrit selon des règles strictes. En fait, la plupart des compilateurs acceptent que main soit déclarée void au lieu de int, ou que ce type ne figure pas, et que l'instruction « return 0 ; » n'apparaisse pas explicitement.
I-B. Considérations lexicales▲
I-B-1. Présentation du texte du programme▲
Le programmeur est maitre de la disposition du texte du programme. Des blancs, des tabulations et des sauts à la ligne peuvent être placés à tout endroit ou cela ne coupe pas un identificateur, un nombre ou un symbole composé2.
Les commentaires commencent par /* et se terminent par */ :
/* Ce texte est un commentaire et sera donc
ignoré par le compilateur */
Les commentaires ne peuvent pas être imbriqués : écrit dans un programme, le texte /* voici un grand /* et un petit */ commentaire */ est erroné, car seul /* voici un grand /* et un petit */sera vu comme un commentaire par le compilateur.
Les langages C et C++ cohabitant dans la plupart des compilateurs actuels, ces derniers acceptent également comme commentaire tout texte compris entre le signe // et la fin de la ligne ou ce signe apparait :
// Ceci est un commentaire à la mode C++.
Le caractère antislash \ précédant immédiatement un saut à la ligne masque ce dernier : la ligne suivante est considérée comme devant être concaténée à la ligne courante. Cela est vrai en toute circonstance, y compris à l'intérieur d'une chaine de caractères. Par exemple, le texte
message =
"
anti\
constitutionnellement
"
;
est compris comme ceci : « message = « anti constitutionnellement » ; »
2 Néanmoins, les directives pour le préprocesseur (cf. section VIII.A) doivent comporter un # dans la première position de la ligne. Cela ne constitue pas une exception à la règle donnée ici, car le préprocesseur n'est pas le compilateur C et ne travaille pas sur la syntaxe du langage.
I-B-2. Mots-clés▲
Les mots suivants sont réservés. Leur fonction est prévue par la syntaxe de C et ils ne peuvent pas être utilisés dans un autre but :
auto |
break |
case |
char |
const |
continue |
default |
do |
double |
else |
enum |
extern |
float |
for |
goto |
if |
int |
long |
register |
return |
short |
signed |
sizeof |
static |
struct |
switch |
typedef |
union |
unsigned |
void |
volatile |
while |
I-B-3. Identificateurs▲
Un identificateur est une suite de lettres et chiffres contigus, dont le premier est une lettre. Lorsque seul le compilateur est concerné, c'est-à-dire lorsqu'il s'agit d'identificateurs dont la portée est incluse dans un seul fichier (nous dirons de tels identificateurs qu'ils sont privés) :
- en toute circonstance une lettre majuscule est tenue pour différente de la lettre minuscule correspondante ;
- dans les identificateurs, le nombre de caractères discriminants est au moins de 31.
Attention, lorsqu'il s'agit d'identificateurs externes, c'est-à-dire partagés par plusieurs fichiers sources, il est possible que sur un système particulier l'éditeur de liens sous-jacent soit trop rustique pour permettre le respect de ces deux prescriptions.
Le caractère _ (appelé « blanc souligné ») est considéré comme une lettre ; il peut donc figurer à n'importe quelle place dans un identificateur. Cependant, par convention un programmeur ne doit pas utiliser des identificateurs qui commencent par ce caractère. Cela assure qu'il n'y aura jamais de conflit avec les noms introduits (à travers les fichiers « .h ») pour les besoins des bibliothèques, car ces noms commencent par un tel blanc souligné. ~
I-B-4. Opérateurs▲
Symboles simples :
(
) [ ] . !
~
<
>
? :
=
, +
-
*
/
%
|
&
^
Symboles composés :
->
++
--
<=
>=
==
!=
&&
||
<<
>>
+=
-=
*=
/=
%=
<<=
>>=
|=
&=
^=
Tous ces symboles sont reconnus par le compilateur comme des opérateurs. Il est interdit d'insérer des caractères blancs à l'intérieur d'un symbole composé. En outre, il est conseillé d'encadrer par des blancs toute utilisation d'un opérateur. Dans certaines circonstances cette règle est plus qu'un conseil, car sa non-observance crée une expression ambigüe.
I-C. Constantes littérales▲
I-C-1. Nombres entiers▲
Les constantes littérales numériques entières ou réelles suivent les conventions habituelles, avec quelques particularités.
Les constantes littérales sont sans signe : l'expression -123 est comprise comme l'application de l'opérateur unaire - à la constante 123 ; mais puisque le calcul est fait pendant la compilation, cette subtilité n'a aucune conséquence pour le programmeur. Notez aussi qu'en C original, comme il n'existe pas d'opérateur + unaire, la notation +123 est interdite.
Les constantes littérales entières peuvent aussi s'écrire en octal et en hexadécimal :
- une constante écrite en octal (base 8) commence par 0 (zéro) ;
- une constante écrite en hexadécimal (base 16) commence par 0x ou 0X.
Voici par exemple trois manières d'écrire le même nombre :
27 033 0x1B
Détail à retenir : on ne doit pas écrire de zéro non significatif à gauche d'un nombre : 0123 ne représente pas la même valeur que 123.
Le type d'une constante entière est le plus petit type dans lequel sa valeur peut être représentée. Ou, plus exactement :
- si elle est décimale : si possible int, sinon long, sinon unsigned long ;
- si elle est octale ou hexadécimale : si possible int, sinon unsigned int, sinon unsigned long.
Certains suffixes permettent de changer cette classification :
- U, u : indique que la constante est d'un type unsigned ;
- L, l : indique que la constante est d'un type long.
Exemples : 1L, 0x7FFFU. On peut combiner ces deux suffixes : 16UL.
I-C-2. Nombres flottants▲
Une constante littérale est l'expression d'un nombre flottant si elle présente, dans l'ordre :
- une suite de chiffres décimaux (la partie entière),
- un point, qui joue le rôle de virgule décimale,
- une suite de chiffres décimaux (la partie fractionnaire),
- une des deux lettres E ou e,
- éventuellement un signe + ou -,
- une suite de chiffres décimaux.
Les trois derniers éléments forment l'exposant. Exemple : 123.456E-78.
On peut omettre :
- la partie entière ou la partie fractionnaire, mais pas les deux,
- le point ou l'exposant, mais pas les deux.
Exemples : .5e7, 5.e6, 5000000., 5e6
Une constante flottante est supposée de type double, à moins de comporter un suffixe explicite :
- les suffixes F ou f indiquent qu'elle est du type float ;
- les suffixes L ou l indiquent qu'elle est du type long double.
Exemples : 1.0L, 5.0e4f
I-C-3. Caractères et chaines de caractères▲
Une constante de type caractère se note en écrivant le caractère entre apostrophes. Une constante de type chaine de caractères se note en écrivant ses caractères entre guillemets. Exemples, trois caractères :
'
A
'
'
2
'
'
"
'
Quatre chaines de caractères :
"
A
"
"
Bonjour à tous !
"
""
"
'
"
On peut faire figurer n'importe quel caractère, même non imprimable, dans une constante caractère ou chaine de caractères en utilisant les combinaisons suivantes, appelées séquences d'échappement :
- \n : nouvelle ligne (LF)
- \t : tabulation (HT)
- \b : espace-arrière (BS)
- \r : retour-chariot (CR)
- \f : saut de page (FF)
- \a : signal sonore (BELL)
- \\ : \
- ' : '
- « : »
- \d3d2d1 : le caractère qui a pour code le nombre octal d3d2d1. S'il commence par un ou deux zéros et si cela ne crée pas une ambigüité, on peut aussi le noter \d2d1 ou \d1
Par exemple, la chaine suivante définit la suite des 9 caractères 3 A, escape (de code ASCII 27), B, ", C, saut de page, D, \ et E :
"
À
\0
33B
\"
C
\f
D
\\
E
"
Une constante de type caractère appartient au type char, c'est-à-dire entier représenté sur un octet. La valeur d'une constante caractère est le nombre qui représente le caractère de manière interne ; de nos jours il s'agit presque toujours du code ASCII 4.
Une constante de type chaine de caractères représente une suite finie de caractères, de longueur quelconque. Le codage interne d'une chaine de caractères est le suivant (voyez la figure 1) :
- les caractères constituant la chaine sont rangés en mémoire, de manière contigüe, dans l'ordre ou ils figurent dans la chaine ;
- un caractère nul est ajouté immédiatement après le dernier caractère de la chaine, pour en indiquer la fin ;
- la constante chaine représente alors, à l'endroit où elle est écrite, l'adresse de la cellule où a été rangé le premier caractère de la chaine
Par conséquent, une constante chaine de caractères a pour type celui d'un tableau de caractères (c'est-à-dire « char[] ») et pour valeur l'adresse d'une cellule de la mémoire. Par caractère nul on entend le caractère dont le code interne est 0 ; on peut le noter indifféremment 0, '\000' ou '\0' (mais certainement pas '0') ; il est utilisé très fréquemment en C. Notez que, dans une expression, '\0' est toujours interchangeable avec 0.
3Nous verrons qu'en fait cette chaine comporte un caractère de plus qui en marque la fin.
4En standard le langage C ne prévoit pas le codage Unicode des caractères.
I-C-4. Expressions constantes▲
Une expression constante est une expression de l'un des types suivants :
- toute constante littérale ; exemples : 1, 'A', « HELLO », 1.5e-2 ;
- une expression correcte formée par l'application d'un opérateur courant (arithmétique, logique, etc.) à une ou deux expressions constantes ; exemples : -1, 'A' - 'a', 2 * 3.14159265, « HELLO » + 6 ;
- l'expression constituée par l'application de l'opérateur & (opérateur de calcul de l'adresse, voyez la section 2.2.10) à une variable statique, à un champ d'une variable statique de type structure ou à un élément d'un tableau statique dont le rang est donné par une expression constante ; exemples : &x, &fiche.nom, &table[50] ;
- l'expression constituée par l'application de l'opérateur sizeof à un descripteur de type. Exemples : sizeof(int), sizeof(char *) ;
- l'expression constituée par l'application de l'opérateur sizeof à une expression quelconque, qui ne sera pas évaluée ; exemples : sizeof x, sizeof(2 * x + 3).
Les expressions constantes peuvent être évaluées pendant la compilation. Cela est fait à titre facultatif par les compilateurs de certains langages. En C ce n'est pas facultatif : il est garanti que toute expression constante (et donc toute sous-expression constante d'une expression quelconque) sera effectivement évaluée avant que l'exécution ne commence. En termes de temps d'exécution, l'évaluation des expressions constantes est donc entièrement « gratuite ».
I-D. Types fondamentaux▲
Le tableau 1 présente l'ensemble des types connus du compilateur C. L'organisation générale de cet ensemble est évidente : on dispose de deux sortes de types de base, les nombres entiers et les nombres flottants, et d'une famille infinie de types dérivés obtenus en appliquant quelques procédés récursifs de construction soit à des types fondamentaux soit à des types dérivés définis de la même manière.
Cette organisation révèle un trait de l'esprit de C : le pragmatisme l'emporte sur l'esthétisme, parfois même sur la rigueur. Dans d'autres langages, les caractères, les booléens, les constantes symboliques, etc., sont codés de manière interne par des nombres, mais ce fait est officiellement ignoré par le programmeur, qui reste obligé de considérer ces données comme appartenant à des ensembles disjoints. En C on a fait le choix opposé, laissant au programmeur le soin de réaliser lui-même, à l'aide des seuls types numériques, l'implantation des types de niveau supérieur.
I-D-1. Nombres entiers et caractères▲
La classification des types numériques obéit à deux critères :
- Si on cherche à représenter un ensemble de nombres tous positifs, on pourra adopter un type non signé ; au contraire si on doit représenter un ensemble contenant des nombres positifs et des nombres négatifs on devra utiliser un type signé 5.
- Le deuxième critère de classification des données numériques est la taille requise par leur représentation.
Comme précédemment, c'est un attribut d'un ensemble, et donc d'une variable devant représenter tout élément de l'ensemble, non d'une valeur particulière. Par exemple, le nombre 123 considéré comme un élément de l'ensemble {0 … 65535} est plus encombrant que le même nombre 123 quand il est considéré comme un élément de l'ensemble {0 … 255}.
Avec N chiffres binaires (ou bits) on peut représenter :
- soit les 2N nombres positifs 0, 1… 2N - 1 (cas non signé) ;
- soit les 2N nombres positifs et négatifs -2N-1… 2N-1 - 1 (cas signé).
De plus, la représentation signée et la représentation non signée des éléments communs aux deux domaines (les nombres 0, 1… 2N-1 - 1) coïncident.
Le type caractère. Un objet de type char peut être défini, au choix, comme :
- un nombre entier pouvant représenter n'importe quel caractère du jeu de caractères de la machine utilisée ;
- un nombre entier occupant la plus petite cellule de mémoire adressable séparément 6. Sur les machines
actuelles les plus répandues, cela signifie généralement un octet (8 bits).
Le plus souvent, un char est un entier signé ; un unsigned char est alors un entier non signé. Lorsque les char sont par défaut non signés, la norme ANSI prévoit la possibilité de déclarer des signed char. On notera que la signification d'un char en C, un entier petit, est très différente de celle d'un char en Pascal (dans ce langage, l'ensemble des caractères et celui des nombres sont disjoints). En C, ch étant une variable de type char, rien ne s'oppose à l'écriture de l'expression ch - 'A' + 32 qui est tout à fait homogène, puisqu’entièrement faite de nombres.
Le caractère « impossible ». Toutes les valeurs qu'il est possible de ranger dans une variable de type char sont en principe des caractères légaux. Or la plupart des programmes qui lisent des caractères doivent être capables de manipuler une valeur supplémentaire, distincte de tous les « vrais » caractères, signifiant « la fin des données ». Pour cette raison, les variables et fonctions qui représentent ou renvoient des caractères sont souvent déclarées int, non char : n'importe quelle valeur appartenant au type int mais n'appartenant pas au type char peut alors servir d'indicateur de fin de données. Par exemple, une telle valeur est définie dans le fichier stdio.h, c'est la constante symbolique EOF.
Les entiers courts et longs. Il est garanti que toute donnée représentable dans le type short est représentable aussi dans le type long 7 (en bref : un long n'est pas plus court qu'un short !), mais la taille exacte des données de ces types n'est pas fixée par la norme du langage. De nos jours on trouve souvent :
- unsigned short : 16 bits pour représenter un nombre entier compris entre 0 et 65.535
- short : 16 bits pour représenter un nombre entier compris entre -32.768 et 32.767
- unsigned long : 32 bits pour représenter un nombre entier entre 0 et 4.294.967.296
- long : 32 bits pour représenter un entier entre -2.147.483.648 et 2.147.483.647
Le type int. En principe, le type int correspond à la taille d'entier la plus efficace, c'est-à-dire la plus adaptée à la machine utilisée. Sur certains systèmes et compilateurs int est synonyme de short, sur d'autres il est synonyme de long.
Le type int peut donc poser un problème de portabilité 8 : le même programme, compilé sur deux machines distinctes, peut avoir des comportements différents. D'où un conseil important : n'utilisez le type int que pour des variables locales destinées à contenir des valeurs raisonnablement petites (inférieures en valeur absolue à 32767) . Dans les autres cas il vaut mieux expliciter char, short ou long selon le besoin.
À propos des booléens. En C il n'existe donc pas de type booléen spécifique. Il faut savoir qu'à tout endroit ou une expression booléenne est requise (typiquement, dans des instructions comme if ou while) on peut faire figurer n'importe quelle expression ; elle sera tenue pour vraie si elle est non nulle, elle sera considérée fausse sinon. Ainsi, dans un contexte conditionnel,
expr
(c'est-à-dire expr « vraie ») équivaut à
expr != 0
(expr différente de 0). Inversement, lorsqu'un opérateur (égalité, comparaison, etc.) produit une valeur booléenne, il rend 0 pour faux et 1 pour vrai.
Signalons aux esthètes que le fichier <types.h> comporte les déclarations :
enum
{
false
, true
}
;
typedef
unsigned
char
Boolean;
qui introduisent la constante false valant 0, la constante true valant 1 et le type Boolean comme le type le moins encombrant dans lequel on peut représenter ces deux valeurs.
5 On dit parfois qu'une donnée « est un entier signé » ou « est un entier non signé ». C'est un abus de langage : le caractère signé ou non signé n'est pas un attribut d'un nombre (un nombre donné est positif ou négatif, c'est tout), mais de l'ensemble de nombres qu'on a choisi de considérer et, par extension, de toute variable censée pouvoir représenter n'importe quelle valeur de cet ensemble.
6À retenir : un objet de type char est « unitaire » aussi bien du point de vue des tailles que de celui des adresses. Quelle que soit la machine utilisée, le compilateur C fera en sorte que le programmeur voie ces objets de la manière suivante : si t est un tableau de char, la taille (au sens de l'opérateur sizeof, cf. section II.B.11) de t[0] vaut une unité de taille, et l'écart entre les adresses de t[1] et t[0] vaut une unité d'adressage. On peut dire que ces propriétés définissent le type char (ou, si vous préférez, les unités de taille et d'adressage).
7Si on considère un type comme l'ensemble de ses valeurs, on a donc les inclusions larges char ⊆ short ⊆ long (et aussi float ⊆ double ⊆ long double).
8Un programme écrit pour une machine ou un système A est dit portable s'il suffit de le recompiler pour qu'il tourne correctement sur une machine différente B. Par exemple, « putchar('A') ; » est une manière portable d'obtenir l'affichage du caractère A, tandis que « putchar(65) ; » est (sur un système utilisant le code ASCII) une manière non portable d'obtenir le même affichage. Être portable est un critère de qualité et de fiabilité important. On invoque l'efficacité pour justifier l'écriture de programmes non portables ; l'expérience prouve que, lorsque son écriture est possible, un programme portable est toujours meilleur qu'un programme non portable prétendu équivalent.
I-D-2. Types énumérés▲
Un type énuméré, ou énumération est constitué par une famille finie de nombres entiers, chacun associé à un identificateur qui en est le nom. Mis à part ce qui touche à la syntaxe de leur déclaration, il n'y a pas grand-chose à dire à leur sujet. La syntaxe de la déclaration des énumérations est expliquée à la section 5.3. Par exemple, l'énoncé :
enum
jour_semaine {
lundi, mardi, mercredi, jeudi, vendredi, samedi, dimanche }
;
introduit un type énuméré, appelé enum jour semaine, constitué par les constantes lundi valant 0, mardi valant 1, mercredi valant 2, etc. Ainsi, les expressions mardi + 2 et jeudi représentent la même valeur. Les valeurs d'un type énuméré se comportent comme des constantes entières ; elles font donc double emploi avec celles qu'on définit à l'aide de #define (cf. section VIII.A.2). Leur unique avantage réside dans le fait que certains compilateurs détectent parfois, mais ce n'est pas exigé par la norme, les mélanges entre objets de types énumérés distincts ; ces types sont alors le moyen d'augmenter la sécurité des programmes. À propos des types énumérés voyez aussi la section 5.3
I-D-3. Nombres flottants▲
La norme ANSI prévoit trois types de nombres flottants : float (simple précision), double (double précision) et long double (précision étendue). La norme ne spécifie pas les caractéristiques de tous ces types. Il est garanti que toute valeur représentable dans le type float est représentable sans perte d'information dans le type double, et toute valeur représentable dans le type double l'est dans le type long double.
Typiquement, sur des systèmes de taille moyenne, un float occupe 32 bits et un double 64, ce qui donne par exemple des float allant de -1.70E38 à -0.29E-38 et de 0.29E-38 à 1.70E38 avec 7 chiffres décimaux significatifs, et des double allant de -0.90E308 à -0.56E-308 et de 0.56E-308 à 0.90E308 avec 15 chiffres décimaux significatifs.
Les long double correspondent généralement aux flottants de grande précision manipulés par certains coprocesseurs arithmétiques ou les bibliothèques de sous-programmes qui les simulent. Mais il n'est pas exclu que sur un système particulier un long double soit la même chose qu'un double.
I-E. Variables▲
I-E-1. Syntaxe des déclarations▲
La forme complète de la déclaration d'une variable sera expliquée à la section 5.4. Dans le cas le plus simple on trouve
spécification var-init , var-init … var-init ;
ou spécification est de la forme :
et chaque var-init est de la forme :
Exemples :
int
x, y =
0
, z;
extern
float
a, b;
static
unsigned
short
cpt =
1000
;
Les déclarations de variables peuvent se trouver :
- en dehors de toute fonction, il s'agit alors de variables globales ;
- à l'intérieur d'un bloc, il s'agit alors de variables locales ;
-
dans l'entête d'une fonction, il s'agit alors d'arguments formels, placés
- soit dans les parenthèses de l'entête (fonction définie en syntaxe ANSI avec un prototype),
- soit entre le nom de la fonction et le f initial (fonction définie en syntaxe originale ou sans prototype).
Exemple avec prototype :
long
i =
1
;
int
une_fonction
(
int
j) {
short
k;
...
}
Exemple sans prototype :
long
i =
1
;
int
une_fonction
(
j)
int
j;
{
short
k;
...
}
Ci-dessus, i est une variable globale, k une variable locale et j un argument formel d’une fonction
I-E-2. Visibilité des variables▲
La question de la visibilité des identificateurs (c'est-à-dire « quels sont les identificateurs auxquels on peut faire référence en un point d'un programme ? ») est réglée en C comme dans la plupart des langages comportant la structure de bloc, avec une simplification : les fonctions ne peuvent pas être imbriquées les unes dans les autres, et une complication : tout bloc peut comporter ses propres définitions de variables locales.
Un bloc est une suite de déclarations et d'instructions encadrée par une accolade ouvrante « { » et l'accolade fermante « } » correspondante. Le corps d'une fonction est lui-même un bloc, mais d'autres blocs peuvent être imbriqués dans celui-là.
VARIABLES LOCALES. Tout bloc peut comporter un ensemble de déclarations de variables, qui sont alors dites locales au bloc en question. Une variable locale ne peut être référencée que depuis l'intérieur du bloc ou elle est définie ; en aucun cas on ne peut y faire référence depuis un point extérieur à ce bloc. Dans le bloc où il est déclaré, le nom d'une variable locale masque toute variable de même nom définie dans un bloc englobant le bloc en question.
Toutes les déclarations de variables locales à un bloc doivent être écrites au début du bloc, avant la première instruction.
ARGUMENTS FORMELS. Pour ce qui concerne leur visibilité, les arguments formels des fonctions sont considérés comme des variables locales du niveau le plus haut, c'est-à-dire des variables déclarées au début du bloc le plus extérieur 9. Un argument formel est accessible de l'intérieur de la fonction, partout ou une variable locale plus profonde ne le masque pas. En aucun cas on ne peut y faire référence depuis l'extérieur de la fonction.
VARIABLES GLOBALES. Le nom d'une variable globale ou d'une fonction peut être utilisé depuis n'importe quel point compris entre sa déclaration (pour une fonction : la fin de la déclaration de son entête) et la fin du fichier ou la déclaration figure, sous réserve de ne pas être masquée par une variable locale ou un argument formel de même nom.
La question de la visibilité interfichiers est examinée à la section 1.6. On peut noter d'ores et déjà qu'elle ne se pose que pour les variables globales et les fonctions, et qu'elle concerne l'édition de liens, non la compilation, car le compilateur ne traduit qu'un fichier source à la fois et, pendant la traduction d'un fichier, il ne « voit » pas les autres.
9Par conséquent, on ne doit pas déclarer un argument formel et une variable locale du niveau le plus haut avec le même nom.
I-E-3. Allocation et durée de vie des variables▲
Les variables globales sont toujours statiques, c'est-à-dire permanentes : elles existent pendant toute la durée de l'exécution. Le système d'exploitation se charge, immédiatement avant l'activation du programme, de les allouer dans un espace mémoire de taille adéquate, éventuellement garni de valeurs initiales.
À l'opposé, les variables locales et les arguments formels des fonctions sont automatiques : l'espace correspondant est alloué lors de l'activation de la fonction ou du bloc en question et il est rendu au système lorsque le contrôle quitte cette fonction ou ce bloc. Certains qualifieurs (static, register, voir les sections 1.5.5 et 1.5.6) permettent de modifier l'allocation et la durée de vie des variables locales. Remarque. On note une grande similitude entre les variables locales et les arguments formels des fonctions : ils ont la même visibilité et la même durée de vie. En réalité c'est presque la même chose : les arguments formels sont de vraies variables locales avec l'unique particularité d'être automatiquement initialisés (par les valeurs des arguments effectifs) lors de l'activation de la fonction.
I-E-4. Initialisation des variables▲
Variables statiques. En toute circonstance la déclaration d'une variable statique peut indiquer une valeur initiale à ranger dans la variable. Cela est vrai y compris pour des variables de types complexes (tableaux ou structures). Exemple :
double
x =
0
.5e3
;
int
t[5
] =
{
11
, 22
, 33
, 44
, 55
}
;
Bien que la syntaxe soit analogue, une telle initialisation n'a rien en commun avec une affectation comme celles qui sont faites durant l'exécution du programme. Il s'agit ici uniquement de préciser la valeur qui doit être déposée dans l'espace alloué à la variable, avant que l'exécution ne commence.
Par conséquent :
- la valeur initiale doit être définie par une expression constante (calculable durant la compilation) ;
- une telle initialisation est entièrement gratuite, elle n'a aucune incidence ni sur la taille ni sur la durée du programme exécutable produit. Les variables statiques pour lesquelles aucune valeur initiale n'est indiquée sont remplies de zéros. L'interprétation de ces zéros dépend du type de la variable.
Variables automatiques. Les arguments formels des fonctions sont automatiquement initialisés lors de leur création (au moment de l'appel de la fonction) par les valeurs des arguments effectifs. Cela est la définition même des arguments des fonctions.
La déclaration d'une variable locale peut elle aussi comporter une initialisation. Mais il ne s'agit pas de la même sorte d'initialisation que pour les variables statiques : l'initialisation représente ici une affectation tout à fait ordinaire. Ainsi, placée à l'intérieur d'un bloc, la construction
int
i =
exp; /* déclaration + initialisation */
équivaut au couple
int
i; /* déclaration */
...
i =
exp ; /* affectation */
Par conséquent :
- l'expression qui donne la valeur initiale n'a pas à être constante, puisqu'elle est évaluée à l'exécution, chaque fois que la fonction ou le bloc est activé ;
- une telle initialisation « coûte » le même prix que l'affectation correspondante, c'est-à-dire le temps d'évaluation de l'expression qui définit la valeur initiale.
Les variables automatiques pour lesquelles aucune valeur initiale n'est indiquée sont allouées avec une valeur imprévisible.
Remarque : dans le C original, une variable automatique ne peut être initialisée que si elle est simple (c'est-à-dire autre que tableau ou structure). Cette limitation ne fait pas partie du C ANSI.
I-E-5. Variables locales statiques▲
Le qualifieur static, placé devant la déclaration d'une variable locale, produit une variable qui est
- pour sa visibilité, locale ;
- pour sa durée de vie, statique (c'est-à-dire permanente).
Elle n'est accessible que depuis l'intérieur du bloc ou elle est déclarée, mais elle est créée au début de l'activation du programme et elle existe aussi longtemps que dure l'exécution de celui-ci. Exemple :
void
bizarre1
(
void
) {
static
int
cpt =
1000
;
printf
(
"
%d
"
, cpt);
cpt++
;
}
Lorsque la déclaration d'une telle variable comporte une initialisation, il s'agit de l'initialisation d'une variable statique : elle est effectuée une seule fois avant l'activation du programme. D'autre part, une variable locale statique conserve sa valeur entre deux activations consécutives de la fonction. Ainsi, des appels successifs de la fonction ci-dessus produisent l'affichage des valeurs 1000, 1001, 1002, etc. On aurait pu obtenir un effet analogue avec le programme
int
cpt =
1000
;
void
bizarre2
(
void
) {
printf
(
"
%d
"
, cpt);
cpt++
;
}
mais ici la variable cpt est globale et peut donc être modifiée inconsidérément par une autre fonction, ou entrer en conflit avec un autre objet de même nom, tandis que dans la première version elle n'est visible que depuis l'intérieur de la fonction et donc à l'abri des manipulations maladroites et des collisions de noms. On notera pour finir que la version suivante est erronée :
void
bizarre3
(
void
) {
int
cpt =
1000
;
printf
(
"
%d
"
, cpt);
cpt++
;
}
En effet, tous les appels de bizarre3 afficheront la même valeur 1000.
Attention. Malgré tout le bien qu'on vient d'en dire, les variables locales statiques ont une particularité potentiellement fort dangereuse : il en existe une seule instance pour toutes les activations de la fonction dans laquelle elles sont déclarées. Ainsi, dans l'exemple suivant :
void
fonction_suspecte
(
void
) {
static
int
i;
...
ff fonction_suspecte
(
); fi
...
}
la valeur de la variable i avant et après l'appel de fonction suspecte (c'est-à-dire aux points ff et fi) peut ne pas être la même, car la deuxième activation de fonction suspecte accède aussi à i. Cela est tout à fait inhabituel pour une variable locale. Conséquence à retenir : les variables locales statiques se marient mal avec la récursivité.
I-E-6. Variables critiques▲
Le qualifieur register précédant une déclaration de variable informe le compilateur que la variable en question est très fréquemment accédée pendant l'exécution du programme et qu'il y a donc lieu de prendre toutes les dispositions utiles pour en accélérer l'accès. Par exemple, dans certains calculateurs de telles variables sont logées dans un registre de l'unité centrale de traitement (CPU) plutôt que dans la mémoire centrale ; de cette manière l'accès à leur valeur ne met pas en œuvre le bus de la machine.
Les variables ainsi déclarées doivent être locales et d'un type simple (nombre, pointeur). Elles sont automatiquement initialisées à zéro chaque fois qu'elles sont créées. Le compilateur accorde ce traitement spécial aux variables dans l'ordre ou elles figurent dans les déclarations. Lorsque cela n'est plus possible (par exemple, parce que tous les registres de la CPU sont pris) les déclarations register restantes sont ignorées. Il convient donc d'appliquer ce qualifieur aux variables les plus critiques d'abord. Exemple :
char
*
strcpy
(
char
*
dest, char
*
srce) {
register
char
*
d =
dest, *
s =
srce;
while
((*
d++
=
*
s++
) !=
0
)
;
return
dest;
}
Attention. L'utilisation du qualifieur register est intéressante lorsque l'on doit utiliser un compilateur rustique, peu « optimisateur ». Or de nos jours les compilateurs de C ont fini par devenir très perfectionnés et intègrent des algorithmes d'optimisation, parmi lesquels la détermination des variables critiques et leur allocation dans les registres de la CPU. Il s'avère alors que le programmeur, en appliquant le qualifieur register à ses variables préférées (qu'il croit critiques alors qu'elles ne le sont pas réellement), gène le travail du compilateur et obtient un programme moins efficace que s'il n'avait jamais utilisé ce qualifieur.
I-E-7. Variables constantes et volatiles▲
Le qualifieur const placé devant une variable ou un argument formel informe le compilateur que la variable ou l'argument en question ne changera pas de valeur tout au long de l'exécution du programme ou de l'activation de la fonction. Ce renseignement permet au compilateur d'optimiser la gestion de la variable, la nature exacte d'une telle optimisation n'étant pas spécifiée. Par exemple un compilateur peut juger utile de ne pas allouer du tout une variable qualifiée const et de remplacer ses occurrences par la valeur initiale 10 indiquée lors de la déclaration. Il est conseillé de toujours déclarer const les variables et les arguments formels qui peuvent l'être.
Note. C'est regrettable, mais, pour la plupart des compilateurs, une variable qualifiée const n'est pas tout à fait une expression constante au sens de la section 1.3.4. En particulier, pour ces compilateurs une variable, même qualifiée const, ne peut pas être utilisée pour indiquer le nombre d'éléments dans une déclaration de tableau.
Le C ANSI introduit aussi les notions de pointeur constant et de pointeur sur constante, expliquées à la section 5.4.2.
Le sens du qualifieur volatile dépend lui aussi de l'implémentation. Il diminue le nombre d'hypothèses, et donc d'optimisations, que le compilateur peut faire sur une variable ainsi qualifiée. Par exemple toute variable dont la valeur peut être modifiée de manière asynchrone (dans une fonction de détection d'interruption, ou par un canal d'entrée-sortie, etc.) doit être qualifiée volatile, sur les systèmes où cela a un sens. Cela prévient le compilateur que sa valeur peut changer mystérieusement, y compris dans une section du programme qui ne comporte aucune référence à cette variable.
Les compilateurs sont tenus de signaler toute tentative décelable de modification d'une variable const. Mis à part cela, sur un système particulier ces deux qualifieurs peuvent n'avoir aucun autre effet. Ils n'appartiennent pas au C original.
10La déclaration d'une variable const doit nécessairement comporter une initialisation, car sinon, une telle variable ne pouvant pas être affectée par la suite, elle n'aurait jamais de valeur définie.
I-F. Variables, fonctions et compilation séparée▲
I-F-1. Identificateurs publics et privés▲
Examinons maintenant les règles qui régissent la visibilité interfichiers des identificateurs. La question ne concerne que les noms de variables et de fonctions, car les autres identificateurs (noms de structures, de types, etc.) n'existent que pendant la compilation et ne peuvent pas être partagés par deux fichiers. Il n'y a pas de problème pour les variables locales, dont la visibilité se réduit à l'étendue de la fonction ou du bloc contenant leur définition. Il ne sera donc question que des noms des variables globales et des noms des fonctions.
Jargon. Identificateurs publics et privés. Un nom de variable ou de fonction défini dans un fichier source et pouvant être utilisé dans d'autres fichiers sources est dit public. Un identificateur qui n'est pas public est appelé privé.
Règle 1 :
- Sauf indication contraire, tout identificateur global est public ;
- le qualifieur static, précédant la déclaration d'un identificateur global, rend celui-ci privé.
On prendra garde au fait que le qualifieur static n'a pas le même effet quand il s'applique à un identificateur local (static change la durée de vie, d'automatique en statique, sans toucher à la visibilité) et quand il s'applique à un identificateur global (static change la visibilité, de publique en privée, sans modifier la durée de vie).
Lorsqu'un programme est décomposé en plusieurs fichiers sources il est fortement conseillé, pour ne pas dire obligatoire, d'utiliser le qualifieur static pour rendre privés tous les identificateurs qui peuvent l'être. Si on ne suit pas cette recommandation, on verra des fichiers qui étaient corrects séparément devenir erronés lorsqu'ils sont reliés, uniquement parce qu'ils partagent à tort des identificateurs publics.
I-F-2. Déclaration d'objets externes▲
Nous ne considérons donc désormais que les noms publics. Un identificateur référencé dans un fichier alors qu'il est défini dans un autre fichier est appelé externe. En général, les noms externes doivent faire l'objet d'une déclaration : le compilateur ne traitant qu'un fichier à la fois, les propriétés de l'objet externe doivent être indiquées pour que la compilation puisse avoir lieu correctement.
Jargon :
Définition et déclaration d'une variable ou d'une fonction. Aussi bien une déclaration qu'une définition d'un nom de variable ou de fonction est une formule qui spécifie la classe syntaxique (variable ou fonction) et les attributs (type, valeur initiale, etc.) de l'identificateur en question. En plus de cela :
- une définition produit la création de l'objet dont l'identificateur est le nom ;
- une déclaration se limite à indiquer que l'objet en question a dû être créé dans un autre fichier qui sera fourni lors de l'édition de liens. (« Créer » une variable ou une fonction c'est réserver l'espace correspondant, rempli par l'éventuelle valeur initiale de la variable ou par le code de la fonction).
Règle 2 :
- Toute variable doit avoir été définie (c'est-à-dire déclarée normalement) ou déclarée externe avant son utilisation ;
-
une fonction peut être référencée alors qu'elle n'a encore fait l'objet d'aucune définition ni déclaration externe ; elle est alors supposée être
- externe,
- à résultat entier (int),
- sans prototype (cf. section IV.B) ;
- par conséquent, si une fonction n'est pas à résultat entier alors elle doit être soit définie soit déclarée externe avant son appel, même si elle est ultérieurement définie dans le fichier ou figure l'appel.
La déclaration externe d'une variable s'obtient en faisant précéder une déclaration ordinaire du mot-clé extern. Exemple :
extern
unsigned
long
n;
Dans un autre fichier, cette variable aura été définie :
unsigned
long
n;
La déclaration externe d'une variable doit être identique, au mot extern près, à sa définition. Sauf pour les deux points suivants :
- une déclaration externe ne doit pas comporter d'initialisateur (puisque la déclaration externe n'alloue pas la variable),
- dans une déclaration externe de tableau, il est inutile d'indiquer la taille de celui-ci (puisque la déclaration externe n'alloue pas le tableau).
Exemple. Dans le fichier où sont définies les variables n et table, on écrira :
unsigned
long
n =
1000
;
int
table[100
];
Dans un autre fichier, où ces variables sont uniquement référencées, on écrira :
extern
unsigned
long
n;
extern
int
table[];
La déclaration externe d'une fonction s'obtient en écrivant l'entête de la fonction, précédé du mot extern et suivi d'un point-virgule ; le mot extern est facultatif. Exemple : définition de la fonction
double
carre
(
double
x) {
return
x *
x;
}
Déclaration externe dans un autre fichier :
double
carre
(
double
x);
ou
double
carre
(
double
);
ou l'un ou l'autre de ces énoncés, précédé du mot extern.
En syntaxe originale (c'est-à-dire « sans prototype ») il faut en outre ne pas écrire les arguments formels.
Définition :
double
carre
(
x)
double
x;
{
return
x *
x;
}
Déclaration externe dans un autre fichier :
double
carre
(
);
Règle 3 :
Dans l'ensemble des fichiers qui constituent un programme, chaque nom public :
- doit faire l'objet d'une et une seule définition ;
- peut être déclaré externe (y compris dans le fichier ou il est défini) un nombre quelconque de fois.
Cette règle volontariste est simple et elle exprime la meilleure fa»con de programmer. Il faut savoir cependant que chaque système tolère des écarts, qui révèlent surtout la rusticité de l'éditeur de liens sous-jacent. La clarté des concepts et la fiabilité des programmes y perdent beaucoup.
Un comportement fréquent est le suivant : appelons momentanément « déclaration-définition » une expression générale de la forme
Nous pouvons donner la règle relâchée :
Règle 3 :
Dans l'ensemble des fichiers qui constituent un programme, chaque nom public peut faire l'objet d'un nombre quelconque de déclarations-définitions, mais :
- il doit y avoir au moins une déclaration-définition sans le mot-clé extern ;
- il peut y avoir au plus une déclaration-définition comportant un initialisateur.
Des techniques et conseils pour écrire des programmes modulaires en C sont exposés à la section 8.2.