Création de corpus - étape 1

Par kirstenb dans Journal de Kirsten BERLAND le 8 Décembre 2020 à 14:59

Nous avons récupéré le contenu textuel de nos URLs, ainsi que le contexte où apparaît le motif que nous cherchons ("Helikopter-Eltern|헬리콥터 부모") et les bigrammes de chaque texte.

La prochaine grande partie consiste en l'écriture de fichiers, un par langue, à partir des textes obtenus. Chaque article composera une "partie" de ces corpus.

Le but de cette opération est de permettre à un outil d'analyse texto-métrique tel que iTrameur (lien vers le site), de sectionner les corpus pour une analyse pertinente. Nous allons donc entourer chaque article des balises <partie=?></partie> où ? est le numéro de la partie.

Il faut pourtant remarquer que les fichiers obtenus par dump (utf8_1-1.txt comme exemple) peuvent contenir des chevrons '<' ou '>' qui perturberont l'outil d'analyse lors de la définition des parties du corpus. Nous voulons donc trouver une manière de les enlever grâce à un script bash, avant d'ajouter les balises <partie=?></partie>.

Pour identifier s'il existe encore des chevrons dans les textes, la commande egrep est utile. La commande suivante retrouve tous les chevrons présents dans les fichiers textes dont le nom commence par "utf8_".

echo "<|>" utf8_*.txt

La prochaine commande permet d'effacer chaque occurrence du motif recherché :

tr -d "<|>" < utf8_*.txt

Nous avons essayé d'écrire un script à partir de ça pour chercher les occurrences de chevrons, qui n'a pour l'instant pas été concluant.

fichiersDump=$1;# argument du script, peut être « ./DUMP-TEXT/utf8_*.txt »

for file in $(ls $fichiersDump)

echo $file;

egrep -o "<|>" $file;

done;

Ce script, sensé passer par tous les fichiers dont le nom commence par "utf8_", ne donne que le premier fichier (utf8_1-1.txt).

Une autre façon de supprimer les chevrons serait de faire la commande tr sur chaque fichier séparément à la ligne de commande, ou de continuer dans le script précédent.

Commentaires
1

SF

Mardi 8 Décembre 2020 à 21:10
Dans le bout de code que vous écrivez, il y a au moins une petite erreur :

fichiersDump=$1;# argument du script, peut être « ./DUMP-TEXT/utf8_*.txt »

for file in $(ls $fichierDump)

... il manque un s...

SF

Répondre

kirstenb

Mardi 8 Décembre 2020 à 21:46

Bonjour,

Merci de l'avoir remarqué.

J'ai corrigé l'erreur d'écriture, mais le script ne fonctionne toujours pas comme je l'aurais souhaité.

Nom / Pseudo :

E-mail (facultatif) :

Site Web (facultatif) :

Commentaire :

Me prévenir par mail en cas de réponse
Suivre le flux RSS des commentaires

Ajouter un commentaire

Nom / Pseudo :

E-mail (facultatif) :

Site Web (facultatif) :

Commentaire :

Me prévenir par mail en cas de réponse

Création de corpus - étape 1

Commentaires