Solidot 登录
[ 创建一个新帐号 ]
中文Twitter的信息量是英文的2到8倍
微博客Twitter限制每条信息不能超过140个字符。如果Twitter设置的是140UTF-8字节,那么中文tweet和英文之间应该没什么区别,因为每个中文字形要占据3个字节,而英文字形只有1个字节。但Twitter计算的是字符,而不是字形。因此140个英文字符表达的信息有限,而140个中文字符完全可以当成一篇短小的博文了。然而,中文Twitter的信息量是否就相当于英文的2到3倍呢?
台湾的Perl开发者唐凤(Audrey Tang)进行了一番有趣的研究(中文),她将3条中文tweet翻译成英文,这些中文tweet包括了一般的白话文、半文半白和文言文,在将中文字符数和翻译后的英文字符数对比后,她发现中文的信息量是英文的2到8倍,其中当以文言文信息量最高。
This discussion has been archived.
No new comments can be posted.
声明:
下面的评论属于其发表者所有,不代表本站的观点和立场,我们不负责他们说什么。







妻死速归
(得分:1, 有趣)这个唐凤
(得分:1)( http://openwares.net/ )
@openwares [twitter.com]
re
(得分:1)( http://oldrev.me/ )
来自不公平部门
(得分:1)( http://www.makemusic-asia.com/ )
关于中英文表达能力,两年前写过一
(得分:1, 识见广博)逸马毙犬于道
(得分:1, 有意思)唐凤的perl 6 什么时候能出来啊?
(得分:1)( http://langalang.blogspot.com/ )
n.a.
(得分:2, 识见广博)( 最新日志: 2010年8月24日 23时58分 星期二 )
比如“脫光了衣服站在鏡子前面”我会翻为“stand naked in front of the mirror”,翻成“"is stripped of clothes and stand in front of the mirror”的恐怕罕见。
underware:看不懂形式化证明,买苹果增加自信,痛苦为啥haskell什么的不能速成!?
一个中文不是占两个字节吗?
(得分:1)