• Tokenization du chinois

    Pour tokeniser le chinois, j'ai regardé sur le blog des années passées les propositions des élèves. Il y avait deux solutions majeurs : l'utilisation de jieba ou de stanford segmenter. Sur un blog consulté, un étudiant à tester les deux propositions : d'après ce dernier, la tokenization offerte par jieba serait plus efficace et plus en accord avec la tokenization chinoise.

    J'ai donc choisi d'utiliser jieba. Pour cela, j'ai préalablement installé jieba sur mon terminal ubuntu avec la commande suivante :

    pip3 install jieba

     

    En suite, j'ai écris un programme python qui permet d'utiliser jieba :  

    # encoding=utf-8

    #importer l'argument pour le scripte, trouver le bon fichier txt à segmenter
    import sys
    fichier = sys.argv[1]

    #ouvrir le texte brut et le mémoriser comme variable
    fichier_ouv = open (fichier, "r", encoding="utf-8")
    fichier_read = fichier_ouv.read()
    fichier_ouv.close()

    import jieba
    #ajouter 真升机父母 au dictionnaire temporairement pour que jieba le considère comme #un seul mot
    #jieba.suggest_freq('真升机父母', True)

    #segmenter le texte avec jieba
    seg_list = jieba.cut(fichier_read, cut_all=False)

    #écrire le résultat dans un nouveau fichier
    f = open("fichier_seg.txt", 'w+')
    print (" ".join(seg_list), file=f)
    f.close()

     

    J'ai ensuite intégré ce programme python à mon programme bash.

    python3 ./PROGRAMMES/seg.py ./DUMP-TEXT/utf8_"$compteur_tableau-$compteur".txt;
    mv fichier_seg.txt ./CORPUS-SEG/"$compteur_tableau-$compteur".txt;

    Voici le résultat de la tokenization de la première URL:

    Télécharger « 1-1.txt »

     Un extrait :

    五湖四海 近年来 , 直升机 父母 ( Helicopter Parenting ) 这个 形容词 开始 盛传 。 直升机 父母 是 指 过分 介入 儿女 生活 , 保护 或是 干预 其 生活 的 父母 , 他们 就 像 直升机 一般 , 不时 在 儿女 身边 盘旋 。 教育部 几周 前 在 面 簿 上 解释 , 为何 家长 应该 放弃 这 类 教育 方式 。 国专 长老会 小学 、 武吉知 马 小学 , 以及 一些 政府 学校 为了 禁止 父母 过度 关心 孩子 , 甚至 在 校园内 放 置 告示牌 , 劝 请 父母 切勿 帮 孩子 把 忘 了 带 的 东西 送到 学校 。 把 孩子 照顾 得 无微不至 , 不是 错 , 但是 过度 溺爱 、 超过 界限 的 疼爱 , 对 孩子 并 没有 好处 。 天下父母 心 、 望子成龙 、 望女成凤 — — 这些 形容词 都 说明 家长 无不 关心 自己 的 孩子 、 希望 他们 得到 最棒 的 福利 和 待遇 。 然而 在 这个 竞争 越来越 激烈 的 社会 , 一直 保 护 孩子 , 到底 是 利 还是 弊 ? 作为 教育工作者 , 我见 过 不同 类型 的 直升机 父母 — — 孩子 太忙 , 出于 疼惜 而 帮 他们 做 补习 作业 ; 也 有 家长 每周 质问 孩子 受 教育 的 进展 , 连 作业簿 的 说明 少 了 空格 也 要 投诉 。 我们 当然 希望 家长 能 放手 , 不要 做 直升机 父母 , 基于 以下 四个 理由 :

  • Commentaires

    1
    SF
    Dimanche 29 Novembre 2020 à 15:49

    Bonjour

    Avez-vous testé sur vos données ?

    Les résultats sont-ils bons ?

     

    Si vous avez le temps, testez avec aussi avec stanford segmenter pour évaluer les différences...

     

    SF

     

      • Dimanche 29 Novembre 2020 à 18:40

        Bonjour,

        J'ai ajouté une visualisation de la tokenzation du dump de la première URL. Les résultats sont bons. 

        Si j'ai le temps, je vais essayer avec stanford segmenter pour évaluer les différences.

         

        Alexandra LI COMBEAU

    Suivre le flux RSS des commentaires


    Ajouter un commentaire

    Nom / Pseudo :

    E-mail (facultatif) :

    Site Web (facultatif) :

    Commentaire :