Séance 6

Par allcl dans Journal d'Alexandra LI COMBEAU LONGUET le 24 Novembre 2020 à 17:26

Lors de cette séance, nous avons continuer à ajouter des traitements à la suite de ceux existant:

On a extrait des contextes réduits au motif (1 ligne avant et 1 ligne après)

# 1. construire des morceaux de corpus
egrep -C 2 -i "$motif" ./DUMP-TEXT/utf8_"$compteur_tableau-$compteur".txt > ./CONTEXTES/utf8_"$compteur_tableau-$compteur".txt;
# 2. donner à voir ces contextes au format HTML
perl ./PROGRAMMES/minigrepmultilingue-v2.2-regexp/minigrepmultilingue.pl "UTF-8" ./DUMP-TEXT/utf8_"$compteur_tableau-$compteur".txt ./PROGRAMMES/minigrepmultilingue-v2.2-regexp/motif-2020.txt ;
# attention il faut "sauvegarder" le résultat
mv resultat-extraction.html ./CONTEXTES/"$compteur_tableau-$compteur".html;
#

On a crée un index hiérarchique de chaque TEXT-DUMP

egrep -i -o "\w+" ./DUMP-TEXT/utf8_"$compteur_tableau-$compteur".txt | sort | uniq -c | sort -r -n -s -k 1,1 > ./DUMP-TEXT/index_"$compteur_tableau-$compteur".txt ;

On a aussi crée un index de digramme:

tr " " "\n" < ./DUMP-TEXT/utf8_"$compteur_tableau-$compteur".txt | tr -s "\n" | egrep -v "^$" > index1.txt ;
tail -n +2 index1.txt > index2.txt;
paste index1.txt index2.txt | sort | uniq -c | sort -r -n -s -k 1,1 -r > ./DUMP-TEXT/bigramme_"$compteur_tableau-$compteur".txt ;

On remarque que ces traitements additionnels ne marche pas bien pour le chinois. En effet, il faut tokenizer les textes. On verra ça dans un prochain billet de blog.

Cependant, voici déjà un aperçu visuel du tableau:

Télécharger « tableau.html »

Commentaires

Aucun commentaire pour le moment

Suivre le flux RSS des commentaires

Ajouter un commentaire

Nom / Pseudo :

E-mail (facultatif) :

Site Web (facultatif) :

Commentaire :

Me prévenir par mail en cas de réponse

Séance 6

Commentaires