Чтение онлайн

на главную - закладки

Жанры

Шрифт:

С помощью формулы Шеннона можно найти и количество информации, которое несет одна буква письменной речи. А ведь зная это, легко высчитать, сколько битов информации содержится в любом печатном тексте.

БИТЫ И БУКВЫ

В русском языке 33 буквы. Двоичный логарифм числа 33 равен 5,04439.

Значит, одна буква русского языка несет примерно 5,04 бита информации.

Буквы «е» и «ё» обычно принято считать одной буквой. В одну букву можно объединить твердый и мягкий знаки. А промежуток между словами, «пробел», наоборот, можно причислить к буквам. В итоге — 32 буквы, 32 кодовых знака.

Двоичный логарифм 32 равен 5. Значит, 5 бит информации несла бы буква, если бы все буквы нашего языка одинаково часто встречались в словах. Однако это далеко не так.

Средняя длина русского слова 5—6 букв. Значит, пробел, разделяющий слова, будет встречаться очень часто. Было подсчитано, что в тексте из 1000 букв пробел встречается в среднем 175 раз.

Зато буква «х» в тексте из 1000 букв будет встречаться 9 раз, «ш» и «ю» — по 6 раз, «щ» и «э» — по 3 раза, «ц» — 4 раза, «ф» — 2 раза. Чаще же всего после «нулевой буквы» — пробела, будет встречаться буква «о» — 90 раз, затем «е» вместе с «ё» — 72 раза, буквы «а» и «и» — по 62 раза каждая.

Из-за того, что буквы языка «неравноправны», одни встречаются очень часто, другие — редко, третьи — очень редко, информация, которую несет одна буква нашего языка, уменьшается с 5 бит до 4,35.

Но ведь с различной частотой встречаются и различные сочетания букв.

Например, «ж» или «и» в сочетании с буквой «ы» в грамотно написанном тексте не встретится ни разу, какой бы длинный отрезок его мы ни брали. Недаром мы учим: «жи», «ши» пиши через «и».

Точно так же не встретим мы сочетания трех букв «и» или четырех «е» (да и три буквы «е» подряд имеются лишь в очень немногих русских словах — «длинношеее», «змееед»).

Число русских слов ограниченно, хотя и очень велико. Не каждое сочетание букв образует слово. Математики даже подсчитали, что только две десятитысячных процента сочетаний букв образуют русские слова. Из миллиона сочетаний только два пригодны быть словами!

Кроме того, не всякие сочетания русских слов могут образовывать текст. Во-первых, они должны подчиняться правилам грамматики. Нельзя говорить «мы пошел лес в» или «я буду купил марки иностранную». А во-вторых, и это самое важное, речь должна быть осмысленной.

Передача смысла — главная цель человеческого общения.

А какой может быть смысл в фразе, хотя и соблюдающей правила грамматики, вроде «тщеславие яблока сомневалось в безумном разуме стула»?

Если бы наша речь была беспорядочным набором букв вроде ъбьроапришенгтраствстькаепр, одна буква русского языка несла бы 5 бит информации. Осмысленная же речь сокращает это количество в пять раз. Как показали опыты, буква русского языка несет не пять, а всего лишь 1 бит информации.

ЗАПАС ПРОЧНОСТИ» ЯЗЫКА

Почему же бессмысленный набор букв несет в пять раз больше информации, чем осмысленный текст? Как же это так получается?

Дело в том, что мы измеряем количество информации, а не ее смысл. С помощью формулы Шеннона мы вычисляем в битах «степень незнания», которую уничтожают получаемые нами кодовые знаки — буквы. Разумеется, наше незнание гораздо больше, когда мы принимаем беспорядочный набор букв вроде ъапроатшезщбльоцнстьнронрб, а не осмысленную речь. Мы не знаем, какая буква будет следующей в этом наборе. А в осмысленной речи легко догадаться, что после слов «он учится только на пять, он круглый...» последует слово «отличник», что после букв «учительн...» последует окончание «ица», или «ицы», или «ицей», но никак не «ая» или «ой».

Вот и получается, что по количеству «уничтожаемого незнания» бессмыслица стоит выше, чем осмысленный текст.

Конечно, в будущем ученые смогут измерять не только общее количество информации, но и величину смысла. Правда, сделать это невероятно трудно: слишком сложен наш человеческий язык, чтобы выразить в числах не только кодовые знаки, но и смысл сообщения.

И еще более трудно определить ценность информации.

В книге из 10 тысяч букв содержится 10 тысяч бит информации. Вполне может случиться, что вы эту книгу читали и даже знаете наизусть. Ваш приятель читал ее давно и поэтому плохо помнит. А другой приятель вообще первый раз в жизни слышит о ней. Сколько же информации получит каждый из вас?

Если мерять количество информации, то, разумеется, оно будет одинаково — 10 тысяч бит. Но вы не получите ровно ничего нового. Первый приятель лишь подновит забытые сведения. А второй и в самом деле получит уйму новых сведений. Разумеется, ценность информации для всех трех различна. Однако попробуйте выразить ее в числах!

Но даже ограниченное измерение информации, без учета ее смысла и ценности, позволяет делать интересные выводы и наблюдения.

Мы уже говорили, что примерно лишь 0,0002 процента всех возможных сочетаний русских букв образуют слова. Почему же такая неэкономия? Нельзя ли сделать так, чтобы каждая буква, каждое сочетание букв было самостоятельным словом? Например, чтобы русскими словами были не только буквы «а», или «я», или «и», но и «з», «п», «м», «ю» или сочетания букв вроде «птп», «мн», «ашяс» и т. д.

В принципе, конечно, можно. Hq тогда нельзя было бы заметить или исправить ошибку в языке.

Когда мы пишем «электростанця» вместо «электростанция», пропустив букву «и» в конце слова, то любой легко поймет смысл слова, а порой даже и не заметит ошибки.

В языке, где каждое сочетание букв имеет смысл, «электростанця» было бы не искаженной «электростанцией», а каким-то новым, самостоятельным словом. Еще хуже было бы с разговором — ведь малейшие колебания воздуха, изменение тембра голоса, смена настроения меняли бы звуковой состав речи и тем самым давали бы новые слова!

Таким образом, русский язык имеет своеобразный «запас прочности». Причем, как показали исследования, и в английском, и в русском, и в шведском, и в румынском, и в испанском, и во французском языках «запас прочности» примерно одинаков.

Иногда этот «запас прочности», называемый в теории информации «избыточностью языка», приходится искусственно повышать.

Например, деловая речь изобилует стандартными оборотами, разъяснениями, повторами. В результате одна буква деловой речи несет информацию не в 1 бит, а всего лишь в 0,6 бита.

Поделиться:
Популярные книги

Лекарь Империи 6

Карелин Сергей Витальевич
6. Лекарь Империи
Фантастика:
городское фэнтези
боевая фантастика
аниме
попаданцы
5.00
рейтинг книги
Лекарь Империи 6

Эволюционер из трущоб. Том 12

Панарин Антон
12. Эволюционер из трущоб
Фантастика:
попаданцы
аниме
фэнтези
5.00
рейтинг книги
Эволюционер из трущоб. Том 12

Вечная Война. Книга II

Винокуров Юрий
2. Вечная война.
Фантастика:
юмористическая фантастика
космическая фантастика
8.37
рейтинг книги
Вечная Война. Книга II

Страж Кодекса. Книга VI

Романов Илья Николаевич
6. КО: Страж Кодекса
Фантастика:
фэнтези
попаданцы
аниме
5.00
рейтинг книги
Страж Кодекса. Книга VI

Неучтенный элемент. Том 8

NikL
8. Антимаг. Вне системы
Фантастика:
фэнтези
5.00
рейтинг книги
Неучтенный элемент. Том 8

Московское золото и нежная попа комсомолки. Часть Пятая

Хренов Алексей
5. Летчик Леха
Фантастика:
попаданцы
5.00
рейтинг книги
Московское золото и нежная попа комсомолки. Часть Пятая

Лев Толстой

Шкловский Виктор Борисович
363. Жизнь замечательных людей
Документальная литература:
биографии и мемуары
5.00
рейтинг книги
Лев Толстой

Кодекс Охотника. Книга XVIII

Винокуров Юрий
18. Кодекс Охотника
Фантастика:
фэнтези
попаданцы
аниме
5.00
рейтинг книги
Кодекс Охотника. Книга XVIII

S-T-I-K-S. Пройти через туман

Елисеев Алексей Станиславович
Вселенная S-T-I-K-S
Фантастика:
боевая фантастика
7.00
рейтинг книги
S-T-I-K-S. Пройти через туман

Моров. Том 4

Кощеев Владимир
3. Моров
Фантастика:
фэнтези
попаданцы
альтернативная история
аниме
5.00
рейтинг книги
Моров. Том 4

Черный Маг Императора 7 (CИ)

Герда Александр
7. Черный маг императора
Фантастика:
фэнтези
попаданцы
5.00
рейтинг книги
Черный Маг Императора 7 (CИ)

Я еще не князь. Книга XIV

Дрейк Сириус
14. Дорогой барон!
Фантастика:
юмористическое фэнтези
попаданцы
аниме
5.00
рейтинг книги
Я еще не князь. Книга XIV

Граф Книга третья

Первухин Андрей Евгеньевич
10. Ученик
Фантастика:
фэнтези
попаданцы
5.25
рейтинг книги
Граф Книга третья

Князь Андер Арес 3

Грехов Тимофей
3. Андер Арес
Фантастика:
рпг
аниме
фэнтези
5.00
рейтинг книги
Князь Андер Арес 3