Suite du script Bash

Suite du script Bash

Par kirstenb dans Journal de Kirsten BERLAND le 1 Décembre 2020 à 23:51

L'écriture de la suite du script Bash sur le traitement de nos URLs consiste au repérage du motif, thème de notre projet.

Premièrement, nous cherchons a récupérer deux lignes avant le motif, et deux lignes après, quelque soit la casse de l'occurrence. Nous sauvegardons ces occurrences et leur contexte dans un fichier texte.

     # construction de morceaux de corpus
   egrep -C 2 -i "$motif" ./DUMP-TEXT/"utf8_$numTable-$compteur".txt > ./CONTEXTES/"utf8_$numTable-$compteur".txt;

Grâce à perl et à un logiciel écrit par un ancien étudiant, "Mini-grep-multilingue", nous enregistrons les contextes dans un fichier HTML. Pour cette étape, il faut au préalable créer un fichier "motif-2020.txt" dans lequel le script écrira le motif : echo "MOTIF=$motif" > ./PROGRAMMES/minigrepmultilingue-v2.2-regexp/motif-2020.txt;.
                # donner à voir ces contextes en HTML
                perl ./PROGRAMMES/minigrepmultilingue-v2.2-regexp/minigrepmultilingue.pl "UTF-8" ./DUMP-TEXT/"utf8_$numTable-$compteur".txt ./PROGRAMMES/minigrepmultilingue-v2.2-regexp/motif-2020.txt;
                # sauvegarde du résultat
                mv resultat-extraction.html ./CONTEXTES/"url_$numTable-$compteur".html;

Le programme de "Mini-grep-multilingue" produit un fichier dans lequel sont marquées les occurrences d'un motif dans sa ligne. La particularité de ce logiciel est qu'il est très efficace pour les langues non-occidentales.

Après nous être occupés du contexte, nous demandons d'enregistrer dans un nouveau fichier l'index des mots de la page, c'est-à-dire le nombre d'apparition associé au mot.

# index hierarchique de chaque DUMP
egrep -i -o "\w+" ./DUMP-TEXT/"utf8_$numTable-$compteur".txt | sort | uniq -c | sort -r -n -s -k 1,1 > ./DUMP-TEXT/"index_$numTable-$compteur".txt;

Ensuite, nous avons cherché les bigrammes (ensemble de deux mots) en récupérant la liste des mots de la page, et en copiant à côté la même liste, la première ligne suppprimée.

# calcul de bigrammes
tr " " "\n" < ./DUMP-TEXT/"utf8_$numTable-$compteur".txt | tr -s "\n" | egrep -v "^$" > index1.txt;
tail -n +2 index1.txt > index2.txt; # on efface la 1ère ligne
paste index1.txt index2.txt | sort | uniq -c | sort -r -n -s -k 1,1 -r > ./DUMP-TEXT/"bigrammes_$numTable-$compteur".txt;

Il est possible de télécharger sur ce site http://www.tal.univ-paris3.fr/cours/minigrepmultilingue.htm le dossier contenant tout ce dont nous avons besoin pour se servir de "Mini-grep-multilingue".

Vous pouvez voir ici le nouveau script « table_url.sh », et le tableau « tableau_url.html » donné avec nos fichiers d'URLs pour le motif "Helikopter-Eltern|헬리콥터 부모".
Commentaires

Aucun commentaire pour le moment

Suivre le flux RSS des commentaires

Ajouter un commentaire

Nom / Pseudo :

E-mail (facultatif) :

Site Web (facultatif) :

Commentaire :

Me prévenir par mail en cas de réponse

Suite du script Bash

Commentaires