• Séance 5

    Durant ce cours, on a mis en place dans notre programme deux choses:

    1. un traitement pour tester le bon déroulement de la récupération d'une URL par la commande curl  

    2. un traitement pour récupérer l'encodage d'une URL 

     

    Pour cela, on a utilisé des options de la commande curl.

     

    Premièrement, avec l'option -w %{http_code}, on a récupéré la valeur du code HTTP . Les code HTTP sont les résultats des requêtes envoyées par curl aux sites internet.  Lorsque la valeur est 200, alors la requête s'est bien passé. En revanche, si le la valeur du code HTTP est autre, alors la requête s'est mal passé. 

    codeHttp=$(curl -o ./PAGES-ASPIREES/"$compteur_tableau-$compteur".html $ligne -w %{http_code}) 

     

    Lorsque la récupération s'est bien déroulée, donc que la valeur du code HTTP est 200, on procède à la récupération de l'encodage des sites.

    Pour le moment, on s'est intéressé à la récupération des sites encodés en UTF-8, puisque ces derniers ne demanderont pas traitements spécifiques. On récupère donc l'encodage avec l'option -I de la commande curl. Après observation des charset des différents sites, on remarque que l'encodage est soit noté utf-8 soit UTF-8. On fait donc un pipe pour ensuite uniformiser la récupération de l'encodage.

    encodageURL=$(curl -I $ligne | egrep -i "charset" | cut -f2 -d= | tr [a-z] [A-Z] | tr -d "\r");

     On peut maintenant procéder à la récupération du contenu des sites encodés en UTF-8  où curl à bien récupéré les URLs. Pour cela, on utilise: la commande lynx -dump -nolist.

    lynx -dump -nolist -assume_charset="UTF-8" -display_charset="UTF-8" ./PAGES-ASPIREES/"$compteur_tableau-$compteur".html > ./DUMP-TEXT/"$compteur_tableau-$compteur".txt;

    A la fin de la séance, on a commencé à compter les occurrences d'un motif. Pour cela, on a crée une variable motif dont le contenu sera saisi en argument lors de l'excécution du programme. Puis, on a crée un compteur qui compte les occurrences du motifs trouvés avec la commande egrep (la commande egrep permet de chercher des motifs dans un fichier).

    compteurMotif=$(egrep -o -i $motif ./DUMP-TEXT/"$compteur_tableau-$compteur".txt | wc -l);

     

    Voici le programme réalisé en cours: Télécharger « projet-2020-11-04.sh »

     

    Il faut également réfléchir à comment traiter les sites non encodés en UTF-8 ou bien aps reconnu comme de l'UTF-8 !


  • Commentaires

    Aucun commentaire pour le moment

    Suivre le flux RSS des commentaires


    Ajouter un commentaire

    Nom / Pseudo :

    E-mail (facultatif) :

    Site Web (facultatif) :

    Commentaire :