Архиваторы: Избыточности не существует.

aa_dav · 18 фев 2009

Мне кажется, что это разделение: Объект (как инвариант) и его представление (как набор чисел в данной системе координат) нигде явно не проводится.
Нажмите, чтобы раскрыть...

Эээ... Ну вот этого не знаю, ибо трудов Шеннона не читал. Либо всё слишком очевидно, чтобы на этом заострять внимание, либо он таки заостряет на этом внимание, я не знаю.

gazlan · 18 фев 2009

трудов Шеннона не читал
Нажмите, чтобы раскрыть...

http://www.sendspace.com/file/e78jx6 (~ 7 Mb)
Не могу сказать, что зачитываюсь ими на ночь, но так, навскидку, ничего не вспоминается. Или пропустил, в свое время?

aa_dav · 18 фев 2009

Ой нет, увольте, читать книгу в 7 метров, чтобы там найти чего-то про информацию и способы её представления, ради того чтобы кого-то просветить номером страницы и параграфа - увольте, но не с руки как-то. =)

Если вы согласны, что представление информации может обладать избыточностью, то я в принципе не вижу причин более оставатся в теме.

gazlan · 18 фев 2009

ради того чтобы кого-то просветить номером страницы и параграфа
Нажмите, чтобы раскрыть...

Упаси, Бог! И в мыслях не держал. Просто поделиться хорошим сборником

согласны, что представление информации может обладать избыточностью
Нажмите, чтобы раскрыть...

Кто же станет возражать против очевидного?

leo · 18 фев 2009

gazlan

Мне кажется, что это разделение: Объект (как инвариант) и его представление (как набор чисел в данной системе координат) нигде явно не проводится
Нажмите, чтобы раскрыть...

Повторю, что в шенноновской теории и в ее современной интерпретации речь идет не об избыточности конкретного сообщения ("объекта"), а об избыточности источника сообщений (или языка), генерирующего сообщения из некоторого набора символов (алфавита). Соотв-но мат.определение избыточности это - единица минус отношение (_реальной_) энтропии источника к максимальной (_воображаемой_) энтропии, которую он мог бы обеспечить, используя тот же набор символов (т.е. при их случайном равновероятном чередовании).
Это определение есть и у самого Шеннона в "Мат.теории связи", и во всех учебниках по теории информации, и в интернете кучу ссылок можно найти, в т.ч. и в википедии (по кр.мере в англ.варианте - redundancy)

Y_Mur · 19 фев 2009

leo

Соотв-но мат.определение избыточности это - единица минус отношение (_реальной_) энтропии источника к максимальной (_воображаемой_) энтропии, которую он мог бы обеспечить, используя тот же набор символов (т.е. при их случайном равновероятном чередовании).
Нажмите, чтобы раскрыть...

Мутноватое какое-то определение (хоть и классическоие и общепринятое). Лично я избыточность понимаю так - в посте #102 ссылка на книгу в формате djvu занимающую 7Мб. Если бы эта книга была бы в текстовом формате с поддержкой формул и векторных рисунков то занимала бы меньше места. Если этот текстово-векторный формат ещё и заархивировать то он займёт ещё меньше места. Информация (во всяком случае полезная) при этом одна и таже, а избыточность соотвенно разная, но это ещё вовсе не означает что самый компакный вариант (заархивированный текст) совсем не имеет избыточности. Поэтому как в этом (не туманно абстрактном, а вполне конкретном, практически значимом случае) определить количество "чистой" информации и её избыточность в перечисленных представлениях совершенно непонятно и приведённое выше "классическое" определение никакой ясности в этот вопрос не вносит, скорее только запутывает, наводя на мысль что эти разные форматы соответствуют разным "алфавитам". Но информация то одна и таже, и даже "низкоуровневый" алфавит во всех форматах одинаковый - двоичный

ЗЫ: кстати формат djvu помимо чисто "алфавитной" избыточности несёт в себе и лишнюю "шумовую" информацию о неидеальностях пиксельного представления границ шрифтов, типографских дефектах, погрешностях сканирования и т.п. которая читателя книги в общем то совсем не интересует )

gazlan · 19 фев 2009

leo
Все, что вы написали, совершенно правильно, но мне не кажется, что из этого следует явное разделение объекта и представления.

Y_Mur

определить количество "чистой" информации
Нажмите, чтобы раскрыть...

IMHO, никак. У Колмогорова есть интересные рассуждения на эту тему (на примере "Войны и мира"). Шеннон вводит "абсолютный (термодинамический) нуль отсчета" как энтропию белого шума и уже от него отсчитывается "количество информации".

P.S.
Еще на тему разделяемой модели
Вчера, в блоге Садальского:

- Король сказал, что двери его сокровищницы открыты передо мной! – буркнул рыцарь.
Нажмите, чтобы раскрыть...

http://stanis-sadal.livejournal.com/?skip=10

leo · 19 фев 2009

Y_Mur
Не надо подливать масла в огонь
Во-первых, "на пальцах" здесь уже уже с десяток раз пытались объяснить понятие избыточности, но ТС это не устравивает и ему подавай "классику".
Во-вторых, классическое определение как раз ничего не затуманивает, а объясняет другими более абстрактными словами\понятиями. Да, русский текст можно записать в разных по объему алфавитах - ограниченном алфавите кода Бодо, в расширенном алфавите ANSI или в сверхрасширенном UNICODE. Но энтропия (или "чистая информация") этого текста будет одинаковой во всех этих алфавитах (при этом не важно, как конкретно ее расчитывать, т.е. насколько глубоко учитывать межсимвольные связи, главное чтобы было единообразно для любых алфавитов). А вот основная составляющая избыточности - максимальная энтропия источника - разумеется будет разной для разных кодировок, т.к. неиспользуемые (или крайне редко используемые) символы алфавита будут давать нулевой вклад в реальную энтропию источника, и "весомый" вклад в его максимальную энтропию (в предположении, что все символы равновероятны). Поэтому, если источник выдает сырой (несжатый) текст, то его максимальная удельная энтропия в расчете на 1 символ всегда равна логарифму из объема используемого алфавита. В общем случае максимальная удельная энтропия (в т.ч. и для сжатых сообщений) = средней длине сообщения в битах, деленной на число символов в сообщении.
Вывод: не важно, можем мы или не можем расчитать реальную энтропию ("чистую информацию") источника или конкретного сообщения, главное в классической формуле избыточности то, что она показывает основные тенденции:
1) классический вывод: при заданном алфавите источника (Hmax = const) его избыточность тем больше, чем больше статистических связей\ограничений в выходных сообщениях (т.е. чем меньше реальное значение H)
2) очевидный вывод, на котором в класс.теории не заостряют внимание: если взять сообщения с фикс.реальной энтропией H, то избыточность источника будет тем выше, чем больше (в среднем) бит он использует для кодирования\представления одного символа. Например (в десятый раз повторяю , если взять простой русский текст без учета регистра, то Hmax для юникода = 16 бит/симв, для анси - 8, для Бодо - ~5, для Хаффмана - 4.4 бит/симв. Соотв-но не важно как мы считаем реальное значение H (посимвольно или более сложно) - очевидно, что чем больше Hmax, тем выше избыточность источника

leo · 19 фев 2009

gazlan

мне не кажется, что из этого следует явное разделение объекта и представления
Нажмите, чтобы раскрыть...

А мне "кажется", т.к. за понятием "источник сообщения" скрывается именно не конкретный "объект", а "представление" этого объекта. Например, для системы связи (или для архиватора) источником может быть телеграфный аппарат, выдающий символы в кодах Бодо, а может быть виндовый блокнот, сохраняющий файлы либо в анси, либо в юникоде, или Adobe Acrobat и т.д. и т.п. Текст м.б. одним и тем же, а его "представление" и соотв-но избыточность - разная.

А твое заявление в #31

Юникод, коды Бодо и неиспользуемые символы к делу не относятся - очевидно подразумевается, что сообщение реализует всю мощность заданного алфавита
Нажмите, чтобы раскрыть...

означает страусиный отход от реальности, т.к. ты пытаешься "вынести за скобки" реальную избыточность разных источников сообщений. Но реальные архиваторы и системы связи должны работать с любыми данными, которые им "подсовывают", и не капризничать, требуя "реализации всей мощности заданного алфавита"

gazlan · 19 фев 2009

за понятием "источник сообщения" скрывается именно не конкретный "объект", а "представление" этого объекта
Нажмите, чтобы раскрыть...

Угу. Потому вам и "кажется". Реально, информация почти целиком определяется моделью. Само сообщение (его биты и их логарифмы) это маленькая часть пазла. Помните историю, как четверо слепых ощупывали слона? Невозможно восприятие вне парадигмы. Если вы прошли по линку в моем предыдущем (#107) ответе, то могли видеть, что сообщение "поразил дракона" совершенно по разному интерпретировано в двух разных, хотя и очень близких моделях. И ориентироваться на "логарифм объема используемого алфавита" попросту неверно.

пытаешься "вынести за скобки" реальную избыточность разных источников сообщений
Нажмите, чтобы раскрыть...

Нет, мы уже договорились, что избыточность спрятана именно в модели.

leo · 19 фев 2009

gazlan
Мда, ты похоже безнадежно болен...
Источник существует сам по себе (например, txt-файл на диске), а система передачи или архиватор сами по себе. Пока архиватор не проанализирует файл, для него существует только Hmax = размеру файла в битах. Может оказаться, что в этом txt содержится хорошо зашифрованный текст или вообще случайный набор символов и соотв-но его избыточность будет близка к 0 и следовательно его не удасться существенно сжать и проще оставить как есть.
А может, наоборот он содержит кучу повторяющихся символов и его можно значительно сжать элементарным RLE, или еще лучше LZW (который, к слову сказать, юникодный текст сожмет больше ансишного -> зависимость не только от "содержания", но и от "кодировки"). Т.е. конкретный текст (или источник, который его выдал) может содержать некоторую "теоретическую избыточность" по Шеннону, но упрощенный алгоритм RLE может устранить только часть этой избыточности, заложенную в его модели, алгоритм LZW - свою часть, бОльшую чем RLE, а некий идеальный\абстрактный алгоритм - практически всю "теоретическую" избыточность.
Другими словами есть теоретическая\потенциальная избыточность, присущая данному источнику (расчитывается по Шеннону), а есть избыточность, реально устраняемая конкретным архиватором, заложенная в его модели и расчитывается она в шенновских терминах вообще элементарно - как единица минус отношение длины сжатого сообщения к длине исходного в битах.
Причем если используются динамические алгоритмы сжатия, то архиватор устраняя часть избыточности сообщения, вынужден добавить в него свою "избыточность" = "информацию" для декодера. Т.е. с точки зрения декодера это служебная информация (заранее неизвестная дельта к его модели), но с точки зрения передачи сообщения по каналу или его хранения на диске - это избыточность, т.к. теоретически возможны другие, статические методы сжатия, которые не будут добавлять к сообщению этих "лишних" битов

gazlan · 19 фев 2009

Мда, ты похоже безнадежно болен
Нажмите, чтобы раскрыть...

Диагноз по фотографии?

Со всем, изложенным ниже я согласен - и не могу вспомнить, чтобы когда-либо возражал против этого. В использованных мною ранее определениях это выглядит как "модель + синхросигнал". Поясните, пожалуйста: в чем вы видите несогласованность в наших взглядах?

Y_Mur · 19 фев 2009

gazlan

Реально, информация почти целиком определяется моделью. Само сообщение (его биты и их логарифмы) это маленькая часть пазла. Помните историю, как четверо слепых ощупывали слона? Невозможно восприятие вне парадигмы.
Нажмите, чтобы раскрыть...

Развивая эту мысль можно сказать - один человек прочитав книгу из #102 поймёт её всю, другой только 25%, третий 5%, четвёртый не поймёт в ней ничего - вывод - книгу вообще нельзя считать самостоятельным сообщением и пытаться как-то измерить количество информации в ней, соответсвенно рассуждения об избыточности в ней из #107, #108 совершенно беспочвенны...
Не могу согласиться с такой постановкой вопроса - имхо всё таки содержимое книги должно иметь более менее объективную оценку количества заключённой в неё информации.

gazlan · 20 фев 2009

Не могу согласиться с такой постановкой вопроса
Нажмите, чтобы раскрыть...

Представьте, что эта книга даже не на незнакомом вам языке, а просто в нечитаемой кодировке. Ее "объективная" информативность не изменилась ни на бит, но в вашей модели это просто шум. В шифровании это еще прозрачнее. Есть ключ и алгоритм (модель) - сообщение может быть прочитано. Нет - это практически чистый шум
(почти случайный текст).

gazlan · 20 фев 2009

Трансформаторы

Не раз уже упоминалось, что lossless сжатие суть переименование - биективное отображение одного множества кодов в другое.
Для целей компресссии данных, разумеется, наиболее интересны искажающие отображения - равномерных кодов в неравномерные (и наоборот).

Отображения равномерных кодов в равномерные тривиально (Ex: KOI8R-Win1251), а неравномерных в неравномерные можно рассматривать просто как двойное (каскадное) преобразование.
Отанавливаться на очевидных (кольцо) групповых свойствах подстановок я не буду.

Желательна некоторая компактная (алгебраическая) форма записи такого отображения (из одного алфавита в другой).

Пусть имеются (равномощные) алфавиты A1 и A2 и некоторое отображение (которое будем называть Трансформацией T), взаимооднозначно связывающее элементы (Литеры) из A1 и A2, так что любому a1(i) сопоставлен a2(j) и наоборот.

Оператор, переводящий текст x записанный в алфавите A1 в текст y, записанный в алфавите A2 будем называть Трансформатором T(1,2).

y = Tx (*)

В силу естественной упорядоченности алфавитов, каждой литере можно сопоставить ее номер (последовательный индекс).

Предлагаю записывать Трансформатор T(1,2) как диагональную матрицу n*n (n - мощность алфавита), где на (i,i)-ом месте находится j - индекс подставляемой литеры второго алфавита.

В силу постулированной биективности трансформации, матрица T невырождена и имеет обратную.

Уравнение (*) будем называть Законом Ома для участка информационной цепи, а T - информационным импедансом.

Последовательному (каскадному) применению трансформаций соответствует перемножение импедансов (слева). Так, например, импеданс LZH может быть получен произведением импедансов LZ и H.

CreatorCray · 20 фев 2009

gazlan
Ацки жжош.

А гуру не отзываются потому, что такой бред никто комментировать не захочет.
Ведь видно сразу, что автор ни теории не знает и ни единого сколь либо серъезного алгоритма сжатия не написал.
Но мнение, как полагается, имеет.

gazlan · 21 фев 2009

Translit

Войти или зарегистрироваться

Архиваторы: Избыточности не существует.

aa_dav Active Member

gazlan Member

aa_dav Active Member

gazlan Member

leo Active Member

Y_Mur Active Member

gazlan Member

leo Active Member

leo Active Member

gazlan Member

leo Active Member

gazlan Member

Y_Mur Active Member

gazlan Member

gazlan Member

CreatorCray Member

gazlan Member

Войти или зарегистрироваться

Архиваторы: Избыточности не существует.

aa_dav Active Member

gazlan Member

aa_dav Active Member

gazlan Member

leo Active Member

Y_Mur Active Member

gazlan Member

leo Active Member

leo Active Member

gazlan Member

leo Active Member

gazlan Member

Y_Mur Active Member

gazlan Member

gazlan Member

CreatorCray Member

gazlan Member

Быстрый поиск