Signes diacritiques:
perdus et retrouvés
George Nagy
Rensselaer Polytechnic Institute
nagy@ecse.rpi.edu
Naomi Nagy
University of New Hampshire
ngn@hopper.unh.edu
Michael Sabourin
Northern Telecom
microsab@bnr.ca
Motivation
Le problème
Les accents diacritiques dans le texte
Le Codage
L'entrée des données
Logiciels
Le transfert de fichiers entre plates-formes
Le courrier électronique
Quelques emplois
L'amélioration de la lisibilité
La reconnaissance optique des caractères
La transcription automatique de la parole
Correction automatique de lorthographie
Sommaire
Méthodologie
4 algorithmes de complexité croissante
Automatisé
Sans règles particulières
Facilement généralisé aux autres langues
Entraînement: Des corpus de grandeur varié
Tests: Des extraits du Monde Diplomatique
Résultats
Mots: > 97% correcte
Caractères: > 99% correcte
Les signes diacritiques
diakrinein = "distinguer"
Les signes diacritiques de l'ancien grec
Nom Symbole Emploie
aigu < ½> voyelle longue avec ton montant
brève < ½> voyelle brève
circonflexe < ½> voyelle longue avec ton descendant
esprit doux < ½> a respiration lisse
esprit rude < ½> respiration âpre
grave < ½> voyelle inaccentuée
macron < ½> voyelle longue
tréma < ½> deux syllabes
Statistique des signes diacritiques
en français
(dépend de la langue)
- 6 lettres: <c>, <a>, <e>, <i>, <o> et <u>
- Un signe diacritique une fois sur dix
- ~3% des lettres
- presque 20% des mots
Lidéale
C'est dans l'intérêt des générations futures de toute la francophonie qu'il est nécessaire de continuer à apporter à l'orthographe
des rectifications cohérentes et mesurées
qui rendent son usage plus sûr,
comme il a toujours été fait depuis le xviie siècle ... il faut ... que la graphie des mots soit orientée vers plus de cohérence par
des règles simples .
-- L'Académie Française
La réalité
(pas complètement homogène)
- Les accents graves et aigus indiquent
la qualité de l'<e>,
mais seulement en syllabe ouverte
L'accent grave L'accent grave peut distinguer entre des homographes,
e.g. ou vs. où
ne se voit que si l'<e> est précédé d'un lettre
et suivi d'un <e> muet;
donc, collège, mais collégien
La cédille La cédille distingue entre les deux réalisations de <c>:
le [s] dentale et le [k] vélaire
Le tréma Le tréma <ï> une prononciation en deux syllabes d'une paire de voyelles.
L'accent circonflexe indique un /s/ ou une voyelle tombée;
sert aussi à marquer les distinctions morphologiques dans le passé simple et l'imparfait du subjonctif.
La statistique
v .
la grammaire
Avantages pour la statistique
+ On ne peut pas restaurer automatiquement les signes diacritiques avec facilité selon les règles de grammaire (Il faut 486 règles linguistiques!)
+ Les règles syntactiques exigent une compilation par expert pour chaque langue.
+ Automatique
+ Adaptable
Désavantages pour la statistique
Il faut une grande base de données
pour chaque langue.
Les 4 méthodes
Méthode A: Meilleur match
Succès: 92%
Texte |
Lexique |
Correcte? |
Non-ambigu, commun |
|
|
<le congres est> |
congrès |
à |
<il est naif et> |
naïf |
à |
Ambigu |
|
|
<rouge ou bleu> |
ou |
à |
< ou est la gare> |
où |
X |
<il va a la plage> |
a |
à |
<il a donné> |
à |
X |
Rare |
|
|
<il y a du gres dans> |
Ø |
X |
<un xylophone est> |
Ø |
à |
â Choix de forme accentuée |
76% correctes |
à Choix de forme non-accentuée |
90% correctes |
Méthode B: Fréquence de mot
Succès: 97%
Texte |
Lexique |
Fréquence |
Correcte? |
Non-ambigu, commun |
|
|
|
<le congres est> |
congrès |
³ 1 |
à |
<il est naif et> |
naïf |
³ 1 |
à |
Ambigu |
|
|
|
<du pain sur le plancher > |
sur |
plus |
à |
<il est sur de lui > |
sûr |
moins |
X |
<rouge ou bleu> |
ou |
plus |
à |
< ou est la gare> |
où |
moins |
X |
<elle va a la plage> |
a |
moins |
X |
<elle a chanté> |
à |
plus |
à |
Rare |
|
|
|
<il y a du gres dans> |
Ø |
0 |
X |
<un xylophone est> |
Ø |
0 |
à |
Méthode C: Matches des chaînes
Succès: 98%
Matches possibles pour < gres >
(mot absent du lexique)
Chaîne du test |
Longeur |
Matches du corpus |
Mots qui matchent |
Correctes? |
_gres_ |
6 |
--- |
--- |
--- |
_gres |
5 |
_grés
|
grés ier
grés il |
x
|
|
|
_gres |
gres sin |
x |
gres_ |
5 |
gres_ |
o gres |
x |
|
|
grès_ |
pro grès |
à |
gres |
4 |
grés
|
grés ier
grés il |
x |
|
|
gres |
a gression
gres sin
o gres
o gresse |
x |
|
|
grès |
pro grès |
à |
gre |
3 |
gré |
a gréer
gré
gré sier
mal gré |
x
|
|
|
gre |
gre nouille
o gre
o gresse |
x |
|
|
grè |
con grès
grè ve |
à |
res |
3 |
res
|
og res
og resse
res pecter |
x |
|
|
rés |
g résier
g résil |
x |
|
|
rès |
cong rès |
à |
gr, re, es |
2 |
|
|
|
g, r, e, s |
1 |
|
|
|
Méthode D: Paires minimales
Succès: 98%
364 paires sont trouvées
(58 contiennent un mot étranger)
- automatiquement
- dune lexique de 17 700 mots
e.g.,
brûlé brûle
bâton Baton
carté carte
cartés cartes
cassé casse
casé case
centré centre
centrés centres
chiné Chine
chuté chute
chutés chutes
châsse chasse
cité cite
clôturé clôture
Contextes pour <
a
>
a ___ |
à ___ |
mot suivant |
fréquence |
mot suivant |
fréquence |
ete |
3 679 |
la |
13 905 |
fait |
907 |
une |
2 371 |
la |
717 |
un |
2 281 |
declare |
647 |
des |
1 721 |
annonce |
625 |
paris |
1 165 |
Contextes pour <
ou
>
ou ___ |
où ___ |
mot suivant |
fréquence |
mot suivant |
fréquence |
de |
191 |
il |
148 |
a |
91 |
les |
110 |
les |
76 |
le |
101 |
la |
66 |
la |
76 |
le |
60 |
l'on |
66 |
(Suivants identiques hachés)
Les lexiques
|
Sans données de fréquence |
Avec données de fréquence |
Texte
du |
|
Petit |
Grand |
Petit |
Grand |
test |
Source : |
Dicto Nortel |
Le Monde |
Le Monde |
ECI
|
Le Monde |
# mots |
21 500 |
138 300 |
62 300 |
4 128 318 |
11 189 |
# mots uniques |
21 500 |
138 300 |
13 600 |
104 818 |
3 878 |
# mots accentués |
4 159 |
51 654 |
10 201 |
684 177 |
2 121 |
# lettres |
162 073 |
1 265 790 |
384 760 |
23 980 364 |
69 859 |
# lettres accentués |
4 671 |
60 355 |
12 864 |
770 327 |
2 540 |
ECI
= European Corpus International, construit par le Linguistic Data Consortium de lUniversité de Pennsylvanie.
Resultats
|
A |
B |
C |
D |
Texte dentraine-ment |
Meilleur match |
Fré-quence de mot |
Matches
des chaînes |
Paires mini-males |
Petit
lexique |
-- |
N/A |
89% |
N/A |
Grand lexique |
-- |
N/A |
92% |
N/A |
Petit
corpus |
91% |
94% |
95% |
95% |
Grand
corpus |
92% |
97% |
98% |
98% |
Sans correction: 81%
Des erreurs communs
Des erreurs de la Méthode C :
Matches des chaînes
# de fautes |
cible
|
résultat
|
17 |
états
|
etats
|
6 |
cites
|
cités
|
5 |
taïwan
|
taiwan
|
4 |
d'état
|
d'etat
|
3 |
l'état
|
l'etat
|
Des erreurs de la Méthode D:
Paires minimales
# de fautes |
cible
|
résultat
|
22 |
à
|
a
|
12 |
arme(s)
|
armé(s)
|
12 |
ou
|
où
|
5 |
marche
|
marché
|
Erreurs de commission |
Erreurs d'omission |
Cible
|
Résultat
|
Cible
|
Résultat
|
annule
|
annulé
|
âgé
|
âge
|
considère
|
considéré
|
bâtarde
|
batarde
|
derelict
|
dérélict
|
d'haïti
|
d'haiti
|
marche
|
marché
|
espéré
|
espère
|
donne
|
donné
|
estimé
|
estime
|
Genres de fautes
Texte dentraînement: Grand Corpus
|
Méthode C |
|
Méthode D |
% mots correctes |
97.51 |
< |
97.80 |
% caractères correctes |
98.90 |
< |
99.10 |
% accentué fautivement |
0.40 |
= |
0.40 |
% non-accentué fautivement |
0.60 |
= |
0.60 |
Texte dentraînement: Petit Corpus
|
Méthode C |
|
Méthode D |
% mots correctes |
95.25 |
> |
94.71 |
% caractères correctes |
98.07 |
> |
97.85 |
% accentué fautivement |
0.50 |
> |
0.25 |
% non-accentué fautivement |
0.50 |
< |
0.75 |
Comparaison des Méthodes C & D
 
Sommaire
Diminution de 19% à 2% derreurs avec la Méthode D: Paires minimales
(corpus de 4 128 318 mots)
- Plus grand le lexique, meilleure la performance
- Facilement adapté aux autre langues
- Automatique
Remerciements
Pour leur aide indispensable à ce travail,
nous remercions:
Marc Fabiani
Dominique La Voie
Benoit Poirier
Isabelle Roy
Kelle Truby
et, en particulier, David Yarowsky!


Fréquences dans la lexique
Les chaînes |
La lexique |
Cas 1 |
Cas 2 |
Cas 3 |
Cas 4 |
_gres |
grès |
2 |
0 |
0 |
0 |
gres_ |
con grès, congressiste |
1 |
0 |
0 |
0 |
gres |
con grès, progrès |
2 |
2 |
0 |
0 |
|
con gressiste |
1 |
0 |
0 |
0 |
gre |
mal gré |
5 |
5 |
5 |
0 |
|
gre nouille |
1 |
1 |
1 |
1 |
Les usages modernes
Effets Exemples
Effets Exemples
distinction de sens a vs. à; ou vs. où
la prononciation chante vs. chanté ;
naïf vs. lait
l'accent tonique italien: canto vs. cantò
aucun (reste historique) arrêt
|