信息学上的熵

 熵在信息论的定义如下:

如果有一个系统S内存在多个事件S = {E1,…,En}, 每个事件的概率分布 P = {p1, …, pn},则每个事件本身的信息为

Ie = − log2pi

(对数以2为底,单位是比特)

Ie = − lnpi

(对数以e为底,单位是纳特/nats)

如英语有26个字母,假如每个字母在文章中出现次数平均的话,每个字母的信息量为

I_e = -log_2 {1over 26} = 4.7

而汉字常用的有2500个,假如每个汉字在文章中出现次数平均的话,每个汉字的信息量为

I_e = -log_2 {1over 2500} = 11.3

整个系统的平均信息量为

H_s = sum_{i=1}^n p_i I_e = -sum_{i=1}^n p_i log_2 p_i

这个平均信息量就是信息熵。因为和热力学中描述热力学熵玻耳兹曼公式形式一样,所以也称为“熵”。

如果两个系统具有同样大的信息量,如一篇用不同文字写的同一文章,由于是所有元素信息量的加和,那么中文文章应用的汉字就比英文文章使用的字母要少。所以汉字印刷的文章要比其他应用总体数量少的字母印刷的文章要短。即使一个汉字占用两个字母的空间,汉字印刷的文章也要比英文字母印刷的用纸少。

实际上每个字母和每个汉字在文章中出现的次数并不平均,因此实际数值并不如同上述,但上述计算是一个总体概念。使用书写单元越多的文字,每个单元所包含的信息量越大。

此条目发表在..?不解..分类目录。将固定链接加入收藏夹。

留下评论