• Séance 6

    Lors de cette séance, nous avons continuer à ajouter des traitements à la suite de ceux existant:

    On a extrait des contextes réduits au motif (1 ligne avant et 1 ligne après)

    # 1. construire des morceaux de corpus
    egrep -C 2 -i "$motif" ./DUMP-TEXT/utf8_"$compteur_tableau-$compteur".txt > ./CONTEXTES/utf8_"$compteur_tableau-$compteur".txt;
    # 2. donner à voir ces contextes au format HTML
    perl ./PROGRAMMES/minigrepmultilingue-v2.2-regexp/minigrepmultilingue.pl "UTF-8" ./DUMP-TEXT/utf8_"$compteur_tableau-$compteur".txt ./PROGRAMMES/minigrepmultilingue-v2.2-regexp/motif-2020.txt ;
    # attention il faut "sauvegarder" le résultat
    mv resultat-extraction.html ./CONTEXTES/"$compteur_tableau-$compteur".html;
    #


    On a crée un index hiérarchique de chaque TEXT-DUMP

    egrep -i -o "\w+" ./DUMP-TEXT/utf8_"$compteur_tableau-$compteur".txt | sort | uniq -c | sort -r -n -s -k 1,1 > ./DUMP-TEXT/index_"$compteur_tableau-$compteur".txt ;


    On a aussi crée un index de digramme:

    tr " " "\n" < ./DUMP-TEXT/utf8_"$compteur_tableau-$compteur".txt | tr -s "\n" | egrep -v "^$" > index1.txt ;
    tail -n +2 index1.txt > index2.txt;
    paste index1.txt index2.txt | sort | uniq -c | sort -r -n -s -k 1,1 -r > ./DUMP-TEXT/bigramme_"$compteur_tableau-$compteur".txt ;

    On remarque que ces traitements additionnels ne marche pas bien pour le chinois. En effet, il faut tokenizer les textes. On verra ça dans un prochain billet de blog.   

    Cependant, voici déjà un aperçu visuel du tableau:  

    Télécharger « tableau.html »


  • Commentaires

    Aucun commentaire pour le moment

    Suivre le flux RSS des commentaires


    Ajouter un commentaire

    Nom / Pseudo :

    E-mail (facultatif) :

    Site Web (facultatif) :

    Commentaire :