IdentifiantMot de passe
Loading...
Mot de passe oublié ?Je m'inscris ! (gratuit)

GENÈSE D'UN DICTIONNAIRE

Construction d'un lexique interactif avec Lazarus


précédentsommairesuivant

Lecture d'une liste de mots

Introduction

La saisie assistée de SMS, l'accès aux moteurs de recherche et la correction automatique d'orthographe nous ont familiarisés avec un processus remarquable : en temps réel, un robot nous propose de compléter le mot que l'on a en tête…
La prestation est d'autant plus notable qu'elle s'est insinuée dans nos tâches quotidiennes sans crier gare : l'assistance est là, permanente, rassurante, quelquefois même envahissante ; ceci dans des conditions techniques — stockages de données monstrueux, flux d'échanges à débits élevés, algorithmes de tri rapide mieux gardés que Fort Knox, etc. — que l'on peut difficilement imaginer.
Il n'est pas question ici d'aborder cet arsenal à la pointe de l'informatique d'aujourd'hui, mais modestement d'étudier comment réaliser une base de vocabulaire personnelle, évolutive, consultable aisément, ce qui est déjà une approche intéressante, mais, pourquoi pas, susceptible de donner un coup de main dans le cadre d'un jeu de mots :

  • recherche formelle avec l'utilisation d'un masque précisant la longueur du mot et les lettres connues,
  • recherche logique à partir d'une définition souvent humoristique. Un exemple célèbre est celui de Tristan Bernard : « Vide les baignoires et remplit les lavabos ». Réponse… à la fin du chapitre.

En quelques étapes, nous allons construire une imposante base de mots avec les outils nécessaires pour la consulter et l'enrichir.

Oui, ça marche : mieux que Google !

L'approche se veut méthodique et progressive. Didactique. Les geeks ne trouveront rien de transcendant. Les débutants et les curieux pourront au contraire apprécier une méthode essentiellement pragmatique…
Et après tout, rien n'empêchera de porter l'application sur Android, pour que l'application, une fois achevée, soit accessible sur son PDA…
Les passionnés et les bonnes volontés pourront apporter leur compétence, qui sera la bienvenue.

Présentation

La première étape est consacrée au chargement d'une liste et à sa consultation. Les suivantes constituent une initiation ludique à la programmation sous Lazarus, mais elles restent transposables aisément à tout autre langage.

La saisie d'un vocabulaire de 300 000 mots est une tâche digne des copistes du Moyen Âge : à raison d'un mot par seconde, il faudrait quatre jours de frappe ininterrompue…
Heureusement, avec internet, l'accès à ce volume de données est facile.

Liste de départ

Dans votre navigateur préféré, collez l'adresse suivante, ou cliquez tout simplement sur le lien :

http://pallier.org/liste-de-mots-francais.html

Sur la page qui apparaît, cliquez sur liste.de.mots.francais.frgut.txt.

Le navigateur s'ouvre sur une nouvelle page qui présente la liste recherchée. Un clic droit, dans le menu contextuel, choisissez Enregistrer sous ; vous pouvez conserver le nom proposé ; choisissez comme répertoire celui du projet, par exemple Lexique, et sauvegardez.

La source

Le fichier qui vient d'être chargé est un véritable trésor : il contient exactement 336 531 entrées, donc beaucoup plus que les plus gros dictionnaires ou encyclopédies jamais édités sur papier ! C'est le résultat d'un travail initié notamment par l'Université de Lausanne (merci à nos amis suisses) et poursuivi en France au CNRS et différentes universités dont Paris Descartes.

Christophe Pallier est un éminent chercheur en sciences cognitives, et je ne résiste pas à la tentation de reprendre ici la présentation qu'il fait de lui-même, les nuls en anglais me (lui) pardonneront :

  I am a middle age homo-sapiens drinking too much coffee.
I am also the father of 3 homo-sapiens-sapiens (2 males/1 female). During the day, I work as a scientific researcher, sponsored by the french tax-payers to try and understand the brain machinery that allows us to speak.
As no one seems willing to write a Wikipedia entry about me or my accomplishments, I have decided to create this website (in 1994, long before the advent of Wikipedia, but let us not be sidetracked by this apparent paradox).


Tout le monde a compris qu'il buvait trop de café, qu'il avait trois enfants, qu'il vivait aux crochets du contribuable et que Wikipedia ne parlait pas de lui !

Merci à ce brillant chercheur pour son humour et… l'autorisation qu'il nous a donnée d'utiliser sa publication(1).

Lecture directe

Il suffit de cliquer sur le nouveau fichier pour que le programme par défaut de votre ordinateur affiche le texte. Le bloc-notes de Windows est lent et présente tous les mots sans retour à la ligne ; WordPad convient, mais Notepad++ est mieux adapté, car les numéros de ligne sont indiqués :

Image non disponible

Peut-on vérifier le nombre exact d'entrées ?

Il suffit de rejoindre la fin du fichier dans la fenêtre du programme. Notepad++ donne les informations cherchées :

Image non disponible

Le dernier mot s'écrit zythums(2) et il figure sur la ligne 336531. Objectif atteint.

Utilisation

L'ensemble du fichier texte et de son programme de lecture donne accès aux fonctions essentielles :

  • lecture d'un mot ;
  • modification ;
  • ajout ;
  • recherche ;
  • sauvegarde, etc.

Donc notre projet pourrait s'arrêter là, avec une belle collection de mots d'un côté, et un outil tout prêt pour la consulter…

Mais faisons un rêve. Ne pourrait-on pas :

  • dessiner une interface plus accueillante ;
  • disposer d'une petite fenêtre pour dialoguer avec la machine ;
  • attacher une information, pas forcément une documentation complète, style wiki, mais au moins un lien avec un autre mot…

C'est ce que l'on va aborder dans le prochain chapitre en utilisant Lazarus que l'on peut charger dès maintenant à partir du site Developpez.com ou directement ici :

http://sourceforge.net/projects/lazarus/files/

Attention, la page affiche des boutons Téléchargez ou Download qui sont des liens publicitaires.

La cible à repérer s'intitule

  • Lazarus Windows 32 bits
  • Lazarus Windows 64 bits
  • ou Lazarus Mac, Linux, etc.

dans des versions datées du 28 ou 29 juillet 2012.
Cliquez sur la ligne qui vous convient et installez Lazarus.

Conclusion

Pour la langue française, la ressource disponible se révèle mieux que copieuse : notre projet démarre dans de bonnes conditions. Mais il est difficile d'imaginer que des ressources homologues n'existent pas pour d'autres langues : Internet est une mine féconde où il suffit souvent de chercher…

Sans oublier la colle du début de chapitre : les baignoires sont (également) des loges au théâtre ; les lavabos sont (également) des toilettes. Si on associe théâtre et toilettes, avec l'aide peut-être de quelques lettres déjà identifiées, on aboutit à… entracte !

Un essai avec Google : le moteur de recherche propose Jacob Delafon… Logique purement commerciale, loin de tout humour !

Voyons si nos petits bras musclés et nos quelques neurones encore valides seront en mesure de relever le défi…

Le prochain chapitre abordera différentes méthodes pour ouvrir le fichier texte avec Lazarus.

« Je ne retomberai jamais en enfance, j'y suis toujours resté. »
Tristan Bernard


précédentsommairesuivant
Il a exploité, souligne-t-il, les travaux de Christophe Pythoud  et de l'association Gutenberg
Bière de l'Égypte ancienne

Les sources présentées sur cette page sont libres de droits et vous pouvez les utiliser à votre convenance. Par contre, la page de présentation constitue une œuvre intellectuelle protégée par les droits d'auteur. Copyright © 2014 dimanche2003. Aucune reproduction, même partielle, ne peut être faite de ce site ni de l'ensemble de son contenu : textes, documents, images, etc. sans l'autorisation expresse de l'auteur. Sinon vous encourez selon la loi jusqu'à trois ans de prison et jusqu'à 300 000 € de dommages et intérêts.