Энтропия. Теория информации
пия Hr уменьшается на величину
|( IS = Hmax – Hr |(3.7) |
С точки зрения теории вероятностей начальный алфавит с заданным
числом букв представляет собой полную группу событий.
Для полной группы событий при любом распределении вероятностей сумма
их всегда равна 1 , согласно известному из теории вероятности условию
нормировки:
|i =|pi = 1 |(3.6) |
|N | | |
|( | | |
|i =| | |
|1 | | |
Смысл условия нормировки заключается в том, что сумма вероятностей
выпадения всех 6-ти граней игральной кости равна вероятности выпадения
любой грани, т.е. :
Р1 + Р2 + … Р6 = 1/6 + 1/6 + … + 1/6 = 1
6 раз
В рассматриваемом нами процессе обучения, приводящем к
дифференцировке значений вероятностей реакций Pi , составляющих полную
группу N, условие (3.8) свидетельствует о том, что увеличение вероятностей
каких -то реакций может происходить только за счет уменьшения всех
остальных вероятностей (чтобы сумма была по-прежнему равна 1, см. рис. 1,
случай б).
В предельном случае одна из N вероятностей может возрасти до 1, тогда
все остальные вероятности станут равны 0 (рис. 1).
В случае текста предельному случаю дифференцировки соответствует
вероятность одной буквы (например, «е»), равная 1. Вероятности всех
остальных букв при этом равна нулю. Это значит, что текст вырождается в
повторение одной буквы
е е е е е ...
Этот случай соответствует жесткой детерминации (незатухающий строго
периодический процесс).
Соответствующее жесткой детерминации распределение вероятностей, при
котором некая вероятность Рк равна 1, а все остальные - равны 0, в общем
виде запишется как
Рк=1 (3.9)
Р1 = Р2 = . . .= Рк-1 = Рк+1=. . .= 0 (3.10)
а)
Р1 Р2
Pn
б)
в)
Равномерное распределение вероятностей
Нr = Hmax
Дифференцировка вероятностей при соблюдении условия
i=N
( pi = 1
i=1
Hmax > Hr > 0
Предельный случай дифференцировки вероятностей
Нr = 0
Рис. 1
При подстановке этих значений в функцию энтропии :
|Hr = |i =|pi log pi |(3.11) |
| |N | | |
| |( | | |
| |i =| | |
| |1 | | |
получаем :
Hr=0 (3.12)
Подставляя (3.9) в (3.4), получаем :
( IS = Hmax (3.13)
Все стадии перехода от состояния максимальной энтропии, описываемого
условиями (3.4), (3.5), (3.6), к состоянию жесткой детерминации, которому
соответствуют условия ( 3.9 ) + (3.13) можно представить в виде дуги,
соединяющей исходное состояние Н с конечным состоянием К (рис. 2).
На рис.3 изображена расширяющаяяся иерархическая спираль, которая
может служить моделью формирования иерархических упорядоченных структур.
Пусть нижний уровень этой спирали (п = 0) соответствует начальному
алфавиту, состоящему из N0 различных элементов (букв, атомов, нуклеотидов и
др.).
[pic]
рис. 3
Тогда на уровне N = 1 из этого алфавита можно составить N1 «слов».
Если каждое слово состоит из K1 букв, то из N0 букв можно составить число
слов, равное:
N1 = N0K1 (3.14)
Соответственно, на уровне п = 2 из N1 «слов» можно составить
количество «фраз», равное:
N2=N1K2=N0K1K2 (3.15)
где Кг - число входящих в каждую «фразу» «слов»
Для упрощения математических выражений мы уже приняли одно допущение,
сказав, что все слова содержат одинаковое количество букв (К1), а все фразы
содержат одинаковое количество слов (К2). Очевидно, что в реальных системах
(например, в письменных текстах ) эти условия не соблюдаются. Однако для
выполнения общих свойств нашей информационно -энтропийной модели подобные
упрощения вполне допустимы, поэтому мы введем еще одно допущение:
K1 = К2 = К (3.16)
Подставив (3.16) в (3.15), мы получим :
N2=N0K2 (3.17)
Проводя аналогичные операции для любой (п-ой) ступени при условии:
K1 = K2 = … = Кп = К,
получим:
Nn = N0K2 (3.18)
Рассмотрим пример, иллюстрирующий увеличение разнообразия (числа
различимых элементов) с переходом на более высокие уровни изображенной на
рис . 3.3 спирали в соответствии с формулами (3.14) + (3.18).
Если алфавит (уровень п = 0) содержит 30 букв (N0 = 30), а каждое
«слово» искусственного текста состоит из 6 букв (К = 6), то общее число
таких «слов» составит:
N1 = N0K1 = 306 = 729 ·106
Среди указанного количества «слов» большинство составят бессмысленные
или даже непроизносимые «слова» (из 6-ти гласных, 6-ти согласных и т.п.).
Но если хотя бы 0,01% от общего числа буквенных комбинаций составят
осмысленные слова, общий лексикон составит 72 900 слов.
Еще более прогрессивно возрастает число комбинаций с переходами на
более высокие уровни n = 2, п = 3 и т.д.
Для определения возрастания информационной емкости по мере перехода
на более высокие уровни изображенной на информационно-энтропийной спирали
напомним , что максимальное количество структурной информации A/s'
накапливается при переходе от Нr' = Нmax к Нr'' = 0, т.е. равно:
( IS = Нr' – Нr'' = Hmax
Величина максимальной энтропии для п - ой ступени определяется как:
Нпmax = log Nn = Кn log N0 (3.19)
Сопоставляя величину Нпгнх с величиной энтропии ступени n = О
H0max = log N0 (3.20)
убеждаемся, что в результате перехода с уровня n = 0 на уровень n ,
максимальная энтропия возросла в Кn раз :
Нпmax =Кn Н0max (3.21)
При переходе от исходного состояния Н в конечное состояние К энтропия
уменьшается от Нr = Нmax до Нr = 0, а величина накапливаемой системой
информации соответственно возрастает от I=0 до ( IS = Нmax (см. рис 1).
При переходе с уровня n = О на уровень n в соответствии с увеличением
энтропии в Кn раз увеличивается значение (ISmax то есть возрастает
потенциальная емкость:
(( ISmax)0 = Kn(( ISmax)0 (3.22)
В качестве примера подсчитаем с помощью формулы (3.22), как будут
возрастать размеры витков спирали по мере увеличения номера ступени п .
Приняв условно диаметр витка при n = 0 за 1 см., получим размеры
вышележащих витков, сведенные в таблицу 2.
Таблица 2
|п |1 |2 |3 |4 |5 |6 |
|Диаметры витков в см. |1 |6 |36 |216 |1296 |7776 |
Таблица 2 дает наглядное представление о степени прогрессивности
роста информационной емкости по мере перехода на вышележащие витки.
Нетрудно заметить, что при n = 3 , размеры витка (36 см.) близки к размерам
раскрытой книжки, при n = 5 – к размерам довольно просторной залы (с
диаметром 12,96 м ) , а при п = 6 – к размерам городской площади (с
диаметром 77,76 м ).
Вследствие роста информационной емкости система, поднимаясь в
процессе развития на все более высокие уровни иерархической спирали и
постоянно стремясь к состоянию жесткой детерминации, оказывается тем дальше
от этого состояния (в смысле потенциальной возможности накопления
информации), чем больше витков в этой спирали ей удается пройти.
Как уже отмечалось, системы в своем развитии, как правило, не
достигают состояния жесткой детерминации. Условием их динамичного
равновесия оказывается сочетание частично детерминированных , а частично
вариабельных (вероятностых) внутренних связей. Соотношение степени
детерминации и вариабельности внутренних связей может быть выражено
количественно как отношение величины остаточной энтропии Нr к количеству
накопленной и сохраняемой структурной информации ( IS:
|G = |Hr | |(3.23) |
| |( IS | | |
где G – коэффициент стохастичности (вариабельности, гибкости)
внутренних связей.
Оптимальным соотношением жесткости и гибкости внутренних связей Gopt
оказывается такое соотношение, которое соответствует степени вариабельности
условий внешней среды.
Результаты исследований статистических свойств письменных текстов дали
близкие результаты для всех европейских языков:
G ( ј
Очевидно, эта величина G является для языка оптимальной, так как она
характеризует соотношение, возникшее в результате эволюционного развития
языка. Будучи величиной статистической
| | скачать работу |
Энтропия. Теория информации |