Intro

I have been learning Chinese since 2016. Unfortunately it goes slowly but from time to time I receive some task to prepare. Then I need to cover some material in that language. Then text is written in my language (Polish) or English and in Chinese characters. I can barely recognize 20 or 50 of them so Pinyin is a must. And because on a daily basis I am using Python I thought: let us see how to use it to automate my work.

Python is great

It has tools for everything. It took me only minutes to find nice libraries for segmentation, group characters into words (the leader is jieba) and then to use pinyin transliteration (xpinyin is one of the many examples). This is how easy it is to be done in Python


<span>import</span> <span>jieba</span>
<span>from</span> <span>xpinyin</span> <span>import</span> <span>Pinyin</span>
<span>sentence</span> <span>=</span> <span>"我想说更好的中文，但很难，因为我是波兰人"</span>
<span>print</span><span>(</span><span>sentence</span><span>)</span>
<span>segments</span> <span>=</span> <span>jieba</span><span>.</span><span>cut</span><span>(</span><span>sentence</span><span>)</span>
<span>output</span> <span>=</span> <span>" "</span><span>.</span><span>join</span><span>(</span><span>segments</span><span>)</span>
<span>print</span><span>(</span><span>output</span><span>)</span>
<span>p</span> <span>=</span> <span>Pinyin</span><span>()</span>
<span>pinyined</span> <span>=</span> <span>p</span><span>.</span><span>get_pinyin</span><span>(</span><span>output</span><span>,</span> <span>splitter</span><span>=</span><span>''</span><span>,</span> <span>show_tone_marks</span><span>=</span><span>True</span><span>)</span>
<span>print</span><span>(</span><span>pinyined</span><span>)</span>
<span>import</span> <span>jieba</span>
<span>from</span> <span>xpinyin</span> <span>import</span> <span>Pinyin</span>

<span>sentence</span> <span>=</span> <span>"我想说更好的中文，但很难，因为我是波兰人"</span>
<span>print</span><span>(</span><span>sentence</span><span>)</span>

<span>segments</span> <span>=</span> <span>jieba</span><span>.</span><span>cut</span><span>(</span><span>sentence</span><span>)</span>
<span>output</span> <span>=</span> <span>" "</span><span>.</span><span>join</span><span>(</span><span>segments</span><span>)</span>
<span>print</span><span>(</span><span>output</span><span>)</span>

<span>p</span> <span>=</span> <span>Pinyin</span><span>()</span>
<span>pinyined</span> <span>=</span> <span>p</span><span>.</span><span>get_pinyin</span><span>(</span><span>output</span><span>,</span> <span>splitter</span><span>=</span><span>''</span><span>,</span> <span>show_tone_marks</span><span>=</span><span>True</span><span>)</span>
<span>print</span><span>(</span><span>pinyined</span><span>)</span>
import jieba
from xpinyin import Pinyin

sentence = "我想说更好的中文，但很难，因为我是波兰人"
print(sentence)

segments = jieba.cut(sentence)
output = " ".join(segments)
print(output)

p = Pinyin()
pinyined = p.get_pinyin(output, splitter='', show_tone_marks=True)
print(pinyined)

Enter fullscreen mode Exit fullscreen mode

It will produce output:


我想说更好的中文，但很难，因为我是波兰人
Building prefix dict from the default dictionary ...
Dumping model to file cache /tmp/jieba.cache
Loading model cost 0.899 seconds.
Prefix dict has been built succesfully.
我 想 说 更好 的 中文 ， 但 很 难 ， 因为 我 是 波兰人
wǒ xiǎng shuō gènghǎo de zhōngwén ， dàn hěn nán ， yīnwèi wǒ shì bōlánrén
我想说更好的中文，但很难，因为我是波兰人
Building prefix dict from the default dictionary ...
Dumping model to file cache /tmp/jieba.cache
Loading model cost 0.899 seconds.
Prefix dict has been built succesfully.
我 想 说 更好 的 中文 ， 但 很 难 ， 因为 我 是 波兰人
wǒ xiǎng shuō gènghǎo de zhōngwén ， dàn hěn nán ， yīnwèi wǒ shì bōlánrén
我想说更好的中文，但很难，因为我是波兰人
Building prefix dict from the default dictionary ...
Dumping model to file cache /tmp/jieba.cache
Loading model cost 0.899 seconds.
Prefix dict has been built succesfully.
我 想 说 更好 的 中文 ， 但 很 难 ， 因为 我 是 波兰人
wǒ xiǎng shuō gènghǎo de zhōngwén ， dàn hěn nán ， yīnwèi wǒ shì bōlánrén

Enter fullscreen mode Exit fullscreen mode

Cool isn’t it?
Now I can use it to document processing, thus making my work much faster now.

原文链接：Learning Chinese with Python

文章版权声明 1、本网站名称：拾光赋
2、本站永久网址：https://www.blogs.ink
3、本网站的文章部分内容可能来源于网络，仅供大家学习与参考，如有侵权，请联系站长QQ：805375623进行删除处理。
4、本站一切资源不代表本站立场，并不代表本站赞同其观点和对其真实性负责。
5、本站一律禁止以任何方式发布或转载任何违法的相关信息，访客发现请向站长举报
6、本站资源大多存储在云盘，如发现链接失效，请联系我们我们会第一时间更新。

THE END