diacritics OPHS
Home ] Up ] Computational / computer index ] diss ] DOUBLE MARQUAGE DU SUJET DANS LE FRANÇAIS PARLÉ ] Endangered language fieldwork, SECOL 1999 ] Faetar grammar ] Stresw&schwa in Faetar ] [ diacritics OPHS ] NHVTresearch  proposal ] CLS paper ] SUBJECT PRONOUN VARIATION ] Yankee Doodles in Dialectography: Updating New England ] SURF FINAL REPORT DRAFT___8/12/97 ] Morphology index ]

 

Signes diacritiques:

perdus et retrouvés

 

 

George Nagy

Rensselaer Polytechnic Institute

nagy@ecse.rpi.edu

 

 

Naomi Nagy

University of New Hampshire

ngn@hopper.unh.edu

 

 

Michael Sabourin

Northern Telecom

microsab@bnr.ca

 

Motivation

Le problème

Les accents diacritiques dans le texte

 

  • Le Codage
  • L'entrée des données
  • Logiciels
  • Le transfert de fichiers entre plates-formes
  • Le courrier électronique

 

Quelques emplois

 

  • L'amélioration de la lisibilité
  • La reconnaissance optique des caractères
  • La transcription automatique de la parole
  • Correction automatique de l’orthographie

 

Sommaire

Méthodologie

 

  • 4 algorithmes de complexité croissante
  • Automatisé
  • Sans règles particulières
  • Facilement généralisé aux autres langues
  • Entraînement: Des corpus de grandeur varié
  • Tests: Des extraits du Monde Diplomatique

 

Résultats

Mots: > 97% correcte

Caractères: > 99% correcte

 

 

Les signes diacritiques

diakrinein = "distinguer"

 

Les signes diacritiques de l'ancien grec

 

Nom Symbole Emploie

aigu <½> voyelle longue avec ton montant

brève <½> voyelle brève

circonflexe <½> voyelle longue avec ton descendant

esprit doux <½> a respiration lisse

esprit rude <½> respiration âpre

grave <½> voyelle inaccentuée

macron <½> voyelle longue

tréma <½> deux syllabes

 

 

Statistique des signes diacritiques

en français

 

(dépend de la langue)

 

  • 6 lettres: <c>, <a>, <e>, <i>, <o> et <u>
  • Un signe diacritique une fois sur dix
  • ~3% des lettres
  • presque 20% des mots

 

L’idéale

C'est dans l'intérêt des générations futures de toute la francophonie qu'il est nécessaire de continuer à apporter à l'orthographe

des rectifications cohérentes et mesurées

qui rendent son usage plus sûr,

comme il a toujours été fait depuis le xviie siècle ... il faut ... que la graphie des mots soit orientée vers plus de cohérence par

des règles simples.

 

--L'Académie Française

 

 

La réalité

(pas complètement homogène)

  • Les accents graves et aigus indiquent la qualité de l'<e>,

mais seulement en syllabe ouverte

  • L'accent grave

  • L'accent grave peut distinguer entre des homographes,

e.g. ou vs.

ne se voit que si l'<e> est précédé d'un lettre

et suivi d'un <e> muet;

donc, collège, mais collégien

  • La cédille

  • La cédille distingue entre les deux réalisations de <c>:

le [s] dentale et le [k] vélaire

  • Le tréma

  • Le tréma <ï> une prononciation en deux syllabes d'une paire de voyelles.
  • L'accent circonflexe indique un /s/ ou une voyelle tombée;
  • sert aussi à marquer les distinctions morphologiques dans le passé simple et l'imparfait du subjonctif.

 

La statistique

v.

la grammaire

 

Avantages pour la statistique

+ On ne peut pas restaurer automatiquement les signes diacritiques avec facilité selon les règles de grammaire (Il faut 486 règles linguistiques!)

+ Les règles syntactiques exigent une compilation par expert pour chaque langue.

+ Automatique

+ Adaptable

Désavantages pour la statistique

  • Il faut une grande base de données

pour chaque langue.

 

 

Les 4 méthodes

Méthode A: Meilleur match

Succès: 92%

Texte

Lexique

Correcte?

Non-ambigu, commun

   

<le congres est>

congrès

Ã

<il est naif et>

naïf

Ã

Ambigu

   

<rouge ou bleu>

ou

Ã

<ou est la gare>

X

<il va a la plage>

a

Ã

<il a donné>

à

X

Rare

   

<il y a du gres dans>

Ø

X

<un xylophone est>

Ø

Ã

 

â Choix de forme accentuée

76% correctes

à Choix de forme non-accentuée

90% correctes

 

 

Méthode B: Fréquence de mot

Succès: 97%

 

Texte

Lexique

Fréquence

Correcte?

Non-ambigu, commun

     

<le congres est>

congrès

³ 1

Ã

<il est naif et>

naïf

³ 1

Ã

Ambigu

     

<du pain sur le plancher >

sur

plus

Ã

<il est sur de lui >

sûr

moins

X

<rouge ou bleu>

ou

plus

Ã

<ou est la gare>

moins

X

<elle va a la plage>

a

moins

X

<elle a chanté>

à

plus

Ã

Rare

     

<il y a du gres dans>

Ø

0

X

<un xylophone est>

Ø

0

Ã

 

 

Méthode C: Matches des chaînes

Succès: 98%

Matches possibles pour < gres >

(mot absent du lexique)

Chaîne du test

Longeur

Matches du corpus

Mots qui matchent

Correctes?

_gres_

6

---

---

---

_gres

5

_grés

grésier

grésil

x

   

_gres

gressin

x

gres_

5

gres_

ogres

x

   

grès_

progrès

Ã

gres

4

grés

grésier

grésil

x

   

gres

agression

gressin

ogres

ogresse

x

   

grès

progrès

Ã

gre

3

gré

agréer

gré

grésier

malgré

x

   

gre

grenouille

ogre

ogresse

x

   

grè

congrès

grève

Ã

res

3

res

ogres

ogresse

respecter

x

   

rés

grésier

grésil

x

   

rès

congrès

Ã

gr, re, es

2

     

g, r, e, s

1

     

 

Méthode D: Paires minimales

Succès: 98%

    • 364 paires sont trouvées

(58 contiennent un mot étranger)

    • automatiquement
    • d’une lexique de 17 700 mots

e.g.,

  1. brûlé brûle
  2. bâton Baton
  3. carté carte
  4. cartés cartes
  5. cassé casse
  6. casé case
  7. centré centre
  8. centrés centres
  9. chiné Chine
  10. chuté chute
  11. chutés chutes
  12. châsse chasse
  13. cité cite
  14. clôturé clôture

 

Contextes pour <… a …>

 

a ___

à ___

mot suivant

fréquence

mot suivant

fréquence

ete

3 679

la

13 905

fait

907

une

2 371

la

717

un

2 281

declare

647

des

1 721

annonce

625

paris

1 165

 

Contextes pour <… ou …>

ou ___

où ___

mot suivant

fréquence

mot suivant

fréquence

de

191

il

148

a

91

les

110

les

76

le

101

la

66

la

76

le

60

l'on

66

 

(Suivants identiques hachés)

 

Les lexiques

 

Sans données de fréquence

Avec données de fréquence

Texte

du

 

Petit

Grand

Petit

Grand

test

Source:

Dicto Nortel

Le Monde

Le Monde

ECI

Le Monde

# mots

21 500

138 300

62 300

4 128 318

11 189

# mots uniques

21 500

138 300

13 600

104 818

3 878

# mots accentués

4 159

51 654

10 201

684 177

2 121

# lettres

162 073

1 265 790

384 760

23 980 364

69 859

# lettres accentués

4 671

60 355

12 864

770 327

2 540

 

ECI = European Corpus International, construit par le Linguistic Data Consortium de l’Université de Pennsylvanie.

 

Resultats

 

A

B

C

D

Texte d’entraine-ment

Meilleur match

Fré-quence de mot

Matches

des chaînes

Paires mini-males

Petit

lexique

--

N/A

89%

N/A

Grand lexique

--

N/A

92%

N/A

Petit

corpus

91%

94%

95%

95%

Grand

corpus

92%

97%

98%

98%

 

Sans correction: 81%

Des erreurs communs

Des erreurs de la Méthode C :

Matches des chaînes

# de fautes

cible

résultat

17

états

etats

6

cites

cités

5

taïwan

taiwan

4

d'état

d'etat

3

l'état

l'etat

 

 

Des erreurs de la Méthode D:

Paires minimales

 

 

# de fautes

cible

résultat

22

à

a

12

arme(s)

armé(s)

12

ou

5

marche

marché

 

Erreurs de commission

Erreurs d'omission

Cible

Résultat

Cible

Résultat

annule

annulé

âgé

âge

considère

considéré

bâtarde

batarde

derelict

dérélict

d'haïti

d'haiti

marche

marché

espéré

espère

donne

donné

estimé

estime

 

Genres de fautes

Texte d’entraînement: Grand Corpus

 

 

Méthode C

 

Méthode D

% mots correctes

97.51

<

97.80

% caractères correctes

98.90

<

99.10

% accentué fautivement

0.40

=

0.40

% non-accentué fautivement

0.60

=

0.60

 

Texte d’entraînement: Petit Corpus

 

 

Méthode C

 

Méthode D

% mots correctes

95.25

>

94.71

% caractères correctes

98.07

>

97.85

% accentué fautivement

0.50

>

0.25

% non-accentué fautivement

0.50

<

0.75

 

 

Comparaison des Méthodes C & D

 

 

Sommaire

  • Diminution de 19% à 2% d’erreurs avec la Méthode D: Paires minimales

(corpus de 4 128 318 mots)

  • Plus grand le lexique, meilleure la performance
  • Facilement adapté aux autre langues
  • Automatique

 

 

Remerciements

Pour leur aide indispensable à ce travail,

nous remercions:

 

Marc Fabiani

Dominique La Voie

Benoit Poirier

Isabelle Roy

Kelle Truby

 

et, en particulier, David Yarowsky!

 

Fréquences dans la lexique

Les chaînes

La lexique

Cas 1

Cas 2

Cas 3

Cas 4

_gres

grès

2

0

0

0

gres_

congrès, congressiste

1

0

0

0

gres

congrès, progrès

2

2

0

0

 

congressiste

1

0

0

0

gre

malgré

5

5

5

0

 

grenouille

1

1

1

1

 

 

 

 

Les usages modernes

Effets Exemples

Effets Exemples

distinction de sens a vs. à; ou vs.

la prononciation chante vs. chanté ;

naïf vs. lait

l'accent tonique italien: canto vs. cantò

aucun (reste historique) arrêt

 

 
This page was last modified by Naomi Nagy on 01/16/01