-
Tokenization du chinois
Pour tokeniser le chinois, j'ai regardé sur le blog des années passées les propositions des élèves. Il y avait deux solutions majeurs : l'utilisation de jieba ou de stanford segmenter. Sur un blog consulté, un étudiant à tester les deux propositions : d'après ce dernier, la tokenization offerte par jieba serait plus efficace et plus en accord avec la tokenization chinoise.
J'ai donc choisi d'utiliser jieba. Pour cela, j'ai préalablement installé jieba sur mon terminal ubuntu avec la commande suivante :
pip3 install jieba En suite, j'ai écris un programme python qui permet d'utiliser jieba :
# encoding=utf-8
#importer l'argument pour le scripte, trouver le bon fichier txt à segmenter
import sys
fichier = sys.argv[1]#ouvrir le texte brut et le mémoriser comme variable
fichier_ouv = open (fichier, "r", encoding="utf-8")
fichier_read = fichier_ouv.read()
fichier_ouv.close()import jieba
#ajouter 真升机父母 au dictionnaire temporairement pour que jieba le considère comme #un seul mot
#jieba.suggest_freq('真升机父母', True)#segmenter le texte avec jieba
seg_list = jieba.cut(fichier_read, cut_all=False)#écrire le résultat dans un nouveau fichier
f = open("fichier_seg.txt", 'w+')
print (" ".join(seg_list), file=f)
f.close()J'ai ensuite intégré ce programme python à mon programme bash.
python3 ./PROGRAMMES/seg.py ./DUMP-TEXT/utf8_"$compteur_tableau-$compteur".txt;
mv fichier_seg.txt ./CORPUS-SEG/"$compteur_tableau-$compteur".txt;Voici le résultat de la tokenization de la première URL:
Un extrait :
五湖四海 近年来 , 直升机 父母 ( Helicopter Parenting ) 这个 形容词 开始 盛传 。 直升机 父母 是 指 过分 介入 儿女 生活 , 保护 或是 干预 其 生活 的 父母 , 他们 就 像 直升机 一般 , 不时 在 儿女 身边 盘旋 。 教育部 几周 前 在 面 簿 上 解释 , 为何 家长 应该 放弃 这 类 教育 方式 。 国专 长老会 小学 、 武吉知 马 小学 , 以及 一些 政府 学校 为了 禁止 父母 过度 关心 孩子 , 甚至 在 校园内 放 置 告示牌 , 劝 请 父母 切勿 帮 孩子 把 忘 了 带 的 东西 送到 学校 。 把 孩子 照顾 得 无微不至 , 不是 错 , 但是 过度 溺爱 、 超过 界限 的 疼爱 , 对 孩子 并 没有 好处 。 天下父母 心 、 望子成龙 、 望女成凤 — — 这些 形容词 都 说明 家长 无不 关心 自己 的 孩子 、 希望 他们 得到 最棒 的 福利 和 待遇 。 然而 在 这个 竞争 越来越 激烈 的 社会 , 一直 保 护 孩子 , 到底 是 利 还是 弊 ? 作为 教育工作者 , 我见 过 不同 类型 的 直升机 父母 — — 孩子 太忙 , 出于 疼惜 而 帮 他们 做 补习 作业 ; 也 有 家长 每周 质问 孩子 受 教育 的 进展 , 连 作业簿 的 说明 少 了 空格 也 要 投诉 。 我们 当然 希望 家长 能 放手 , 不要 做 直升机 父母 , 基于 以下 四个 理由 :
-
Commentaires
Bonjour
Avez-vous testé sur vos données ?
Les résultats sont-ils bons ?
Si vous avez le temps, testez avec aussi avec stanford segmenter pour évaluer les différences...
SF
Bonjour,
J'ai ajouté une visualisation de la tokenzation du dump de la première URL. Les résultats sont bons.
Si j'ai le temps, je vais essayer avec stanford segmenter pour évaluer les différences.
Alexandra LI COMBEAU