急求助:香农(信息)熵的计算,急求助:香农(信息)熵的计算~ 5

2020-11-22 14:12:23 字数 5056 阅读 1573

1楼:妹子_看聊效

1948 年,香农提出了“信息熵” 的概念,所以叫香农熵。

香农不是用钱,而是用 “比特”(bit)这个概念来度量信息量。 一个比特是一位二进制数,计算机中的一个字节是八个比特。在上面的例子中,这条消息的信息量是五比特。

信息量的比特数和所有可能情况的对数函数 log 有关。 (log32=5, log64=6。)

对于任意一个随机变量 x,它的熵定义如下:

变量的不确定性越大,熵也就越大,把它搞清楚所需要的信息量也就越大。

有了“熵”这个概念,我们就可以回答本文开始提出的问题,即一本五十万字的中文书平均有多少信息量。我们知道常用的汉字(一级二级国标)大约有 7000 字。假如每个字等概率,那么我们大约需要 13 个比特(即 13 位二进制数)表示一个汉字。

但汉字的使用是不平衡的。实际上,前 10% 的汉字占文本的 95% 以上。因此,即使不考虑上下文的相关性,而只考虑每个汉字的独立的概率,那么,每个汉字的信息熵大约也只有 8-9 个比特。

如果我们再考虑上下文相关性,每个汉字的信息熵只有5比特左右。所以,一本五十万字的中文书,信息量大约是 250 万比特。如果用一个好的算法压缩一下,整本书可以存成一个 320kb 的文件。

如果我们直接用两字节的国标编码存储这本书,大约需要 1mb 大小,是压缩文件的三倍。这两个数量的差距,在信息论中称作“冗余度”(redundancy)。 需要指出的是我们这里讲的 250 万比特是个平均数,同样长度的书,所含的信息量可以差很多。

如果一本书重复的内容很多,它的信息量就小,冗余度就大。

信息熵的计算公式,麻烦通俗地讲一下。 5

2楼:阿楼爱吃肉

信息熵的计算公式:h(x) = e[i(xi)] = e[ log(2,1/p(xi)) ] = -∑p(xi)log(2,p(xi)) (i=1,2,..n)。

其中,x表示随机变量,与之相对应的是所有可能输出的集合,定义为符号集,随机变量的输出用x表示。p(x)表示输出概率函数。变量的不确定性越大,熵也就越大,把它搞清楚所需要的信息量也就越大。

信息熵是数学方法和语言文字学的结合,基本计算公式是未h = - log2(p)。其中,h 表示信息熵,p 表示某种语言文字的字符出现的概率,log2是以二为底的对数,用的是二进制,因而,信息熵的单位是比特(bit,即二进制的0和1)。信息熵值就是信息熵的数值。

3楼:读透红尘盂看客

h=-∑(p(i)*log2[p(i)])(i=1,2,3…)

信息熵的信息含义

4楼:小小新

信息是物质、能量、信息及其属性的标示。【逆维纳信息定义】

信息是确定性的增加。【逆香农信息定义】

信息是事物现象及其属性标识的集合。【2002年】 信息理论的鼻祖之一claude e. shannon把信息(熵)定义为离散随机事件的出现概率。

所谓信息熵,是一个数学上颇为抽象的概念,在这里不妨把信息熵理解成某种特定信息的出现概率。而信息熵和热力学熵是紧密相关的。根据charles h.

ben***t对maxwell's demon的重新解释,对信息的销毁是一个不可逆过程,所以销毁信息是符合热力学第二定律的。而产生信息,则是为系统引入负(热力学)熵的过程。所以信息熵的符号与热力学熵应该是相反的。

一般而言,当一种信息出现概率更高的时候,表明它被传播得更广泛,或者说,被引用的程度更高。我们可以认为,从信息传播的角度来看,信息熵可以表示信息的价值。这样子我们就有一个衡量信息价值高低的标准,可以做出关于知识流通问题的更多推论。

h(x) = e[i(xi)] = e[ log(2,1/p(xi)) ] = -∑p(xi)log(2,p(xi)) (i=1,2,..n)

其中,x表示随机变量,与之相对应的是所有可能输出的集合,定义为符号集,随机变量的输出用x表示。p(x)表示输出概率函数。变量的不确定性越大,熵也就越大,把它搞清楚所需要的信息量也就越大.

信息熵:信息的基本作用就是消除人们对事物的不确定性。多数粒子组合之后,在它似像非像的形态上押上有价值的数码,具体地说,这就是一个在博弈对局中现象信息的混乱。

香农指出,它的准确信息量应该是

-(p1*log(2,p1) + p2 * log(2,p2) + ... +p32 *log(2,p32)),

其中,p1,p2 , ...,p32 分别是这 32 个球队夺冠的概率。香农把它称为“信息熵” (entropy),一般用符号 h 表示,单位是比特。

有兴趣的读者可以推算一下当 32 个球队夺冠概率相同时,对应的信息熵等于五比特。有数学基础的读者还可以证明上面公式的值不可能大于五。对于任意一个随机变量 x(比如得冠军的球队),它的熵定义如下:

变量的不确定性越大,熵也就越大,把它搞清楚所需要的信息量也就越大。

信息熵是信息论中用于度量信息量的一个概念。一个系统越是有序,信息熵就越低;

反之,一个系统越是混乱,信息熵就越高。所以,信息熵也可以说是系统有序化程度的一个度量。

熵的概念源自热物理学。

假定有两种气体a、b,当两种气体完全混合时,可以达到热物理学中的稳定状态,此时熵最高。如果要实现反向过程,即将a、b完全分离,在封闭的系统中是没有可能的。只有外部干预(信息),也即系统外部加入某种有序化的东西(能量),使得a、b分离。

这时,系统进入另一种稳定状态,此时,信息熵最低。热物理学证明,在一个封闭的系统中,熵总是增大,直至最大。若使系统的熵减少(使系统更加有序化),必须有外部能量的干预。

信息熵的计算是非常复杂的。而具有多重前置条件的信息,更是几乎不能计算的。所以在现实世界中信息的价值大多是不能被计算出来的。

但因为信息熵和热力学熵的紧密相关性,所以信息熵是可以在衰减的过程中被测定出来的。因此信息的价值是通过信息的传递体现出来的。在没有引入附加价值(负熵)的情况下,传播得越广、流传时间越长的信息越有价值。

熵首先是物理学里的名词。

在传播中是指信息的不确定性,一则高信息度的信息熵是很低的,低信息度的熵则高。具体说来,凡是导致随机事件集合的肯定性,组织性,法则性或有序性等增加或减少的活动过程,都可以用信息熵的改变量这个统一的标尺来度量。

香农熵的实例

5楼:稻子

那么我们如何来量化度量信息量呢?我们来看一个例

子,马上要举行世界杯赛了。大家都很关心谁会是冠军。假如我错过了看世界杯,赛后我问一个知道比赛结果的观众“哪支球队是冠军”?

他不愿意直接告诉我, 而要让我猜,并且我每猜一次,他要收一元钱才肯告诉我是否猜对了,那么我需要付给他多少钱才能知道谁是冠军呢? 我可以把球队编上号,从 1 到 32, 然后提问: “冠军的球队在 1-16 号中吗?

” 假如他告诉我猜对了, 我会接着问: “冠军在 1-8 号中吗?” 假如他告诉我猜错了, 我自然知道冠军队在 9-16 中。

这样最多只需要五次, 我就能知道哪支球队是冠军。所以,谁是世界杯冠军这条消息的信息量只值五块钱。

香农熵(shannon entropy)在生物信息领域基因表达分析中有广泛的应用,如一些或一个基因在不同组织材料中表达情况己知,但如何确定这些基因是组织特异性表达,还是广泛表达的,那我们就来计算这些基因在n个样本中的香农熵,结果越趋近于零,则表明它是一个越特异表达的基因,结果越趋近于log2(n)则表示它是一个广泛表达的基因。

请简介香农信息论中,信息熵的概念.

6楼:匿名用户

信息熵是信源符号产生不确定性的一种度量。各符号等概出现时,信息熵最大,说明信源下一时刻产生哪个符号的最难推测。

香农熵的数学分析

7楼:小侽

当然,香农不是用钱,而是用 “比特”(bit)这个概念来度量信息量。 一个比特是一位二进制数,计算机中的一个字节是八个比特。在上面的例子中,这条消息的信息量是五比特。

(如果有朝一日有六十四个队进入决赛阶段的比赛,那么“谁世界杯冠军”的信息量就是六比特,因为我们要多猜一次。) 读者可能已经发现, 信息量的比特数和所有可能情况的对数函数 log 有关。 (, 。)

香农熵的介绍

8楼:纯洁晓风

1948 年,香农提出了“信息熵”(shāng) 的概念,才解决了对信息的量化度量问题。一条信息的信息量大小和它的不确定性有直接的关系。比如说,我们要搞清楚一件非常非常不确定的事,或是我们一无所知的事情,就需要了解大量的信息。

相反,如果我们对某件事已经有了较多的了解,我们不需要太多的信息就能把它搞清楚。所以,从这个角度,我们可以认为,信息量的度量就等于不确定性的多少。

信息熵的理解

9楼:匿名用户

不矛盾。前一句和后一句都省略了前提,完整如下:

1、当系统的有序状态一致时,数据越集中的地方熵值越小,数据越分散的地方熵值越大。这是从信息的完整性上进行的描述。

2、当数据量一致时,“系统越有序,熵值越低;系统越混乱或者分散,熵值越高。这是从信息的有序性上进行的描述。

有序性和数据量二者并没有必然的联系,不能说数据量越大,有序性越差或越好,也不能说系统越有序,数据量越大或越小。这两者是两个不同的描述层面,所以是不矛盾的。

10楼:匿名用户

在物理学上说,熵 entrophy 就是“混乱” 程度的量度,所以,”系统越有序,熵值越低;系统越混乱或者分散,熵值越高”。

在信息理论上说,信息就是负熵negtrophy。所以,“信息数据”越集中的地方熵值越小, “信息数据”越分散的地方熵值越大。两者是没有矛盾的。

不过要注意,信息量并不是物理量,信息数据是用二进制binary 量度的,与物理学的十进制量度并不是相同的概念。

参考资料: 生命真相 刘量衡著 湖南科技出版社,2012。

11楼:匿名用户

熵在物理学上指热能除以温度所得的商,标志热量转化为功的程度。在信息论中,用熵来表示不确定性和无组织性的度量,香农认为信息就是不确定性的减少,也就是熵值更少,信息增长是一个逆熵的过程(热力学中不可能)。这是后面一句话的解释,不知道前面一句出处是哪,要联系下上下文读一下才能理解

我觉得说的数据越集中可能也是指信息的完整性更强,不确定更少..但是网络数据的信息也和传统理解不同,像波兹曼认为信息要带来行动,新闻是一种娱乐大于信息