Two Pilots™    Главная  |  Навигация  |  Программы  |  Скачать  |  Купить  |  Поддержка  |  Издателям  |  OEM

Форматы файлов, прикрепляемых к почтовым сообщениям.

Doc, RTF или ... в каком формате должны быть файлы, прикрепляемые к почтовым сообщениям?

Мы рассмотрим, в качестве возможных альтернатив, документы в форматах TXT, RTF, DOC, HTML и PDF. Есть еще один способ: комбинация из нескольких файлов, "сжатых" в общий архив, например, ZIP. "Документами" мы будем называть тексты, в которых используются разные шрифты, в разных стилях (курсив, жирный, подчеркивание...) и разных размеров, с иллюстрациями и другими средствами усиления выразительности. В зависимости от особенностей отправляемого документа и возможностей адресата, оптимальным может оказаться любой из перечисленных способов.

1. Кодировки текста

Для цифрового представления (и передачи) текстовой информации, используются различные кодировки. В большинстве кодировок для представления символов используется байт, восьмиразрядное двоичное число, которое может принимать значения от 0 до 255. В некоторых кодировках для "буквы" используются два или более байт. Сосчитать точное число используемых (и использовавшихся) кодировок невозможно, и определить, какую из них следует использовать для прочтения взятого наугад фрагмента текста, можно только методом проб и ошибок... или владея какой-то дополнительной информацией. Кодировки, особенно национальные, различны между платформами (то же число обозначает разные буквы). Буквы латиницы чаще всего совпадаютв разных кодировках... но тоже не всегда. Текст отображается на экране компьютера (или на листе бумаги) с помощью шрифтов, в которых некоторым из кодов соответствуют строго определенные "картинки": изображения букв, идеограмм, цифр, знаков препинания и прочих символов. В любой кодировке, кроме них, есть еще невидимые символы: "разделители слов" - пробелы, переходы на новую страницу, табуляции. При отображении текста, неизвестные в данном шрифте коды отображаются специальным образом (прямоугольниками, ромбиками со знаком вопроса и т.п.) в зависимости от типа шрифта и особенностей программы, которая воспроизводит текст. Если кодировки используемого шрифта и отображаемого текста различны, вместо понятного текста пользователь увидит "краказябры" - нечитаемую мешанину из обычных и странных букв.

2. TXT

Простые текстовые файлы содержат текст, только текст и ничего кроме текста. О том, какая кодировка использовалась при создании документа, можно только догадываться. Если пересылаемые по электронной почте данные можно, без потери важной информации, представить в виде текста, этот формат отлично подходит. Но, только если отправитель уверен в том, что операционные системы получателей используют в своей работе те же кодировки, что и он. В Windows, юниксах (например, Ubuntu) и на Mac OS X русскоязычные тексты кодируются по разному. К "чисто текстовым" файлам относятся, например, исходные тексты на различных языках программирования (с самыми разными расширениями, например, "c", "h", "rb", "m", "mm" и т.п.), "сложные" текстовые форматы (например, RTF, HTML или PostScript), разнообразные служебные и специальные файлы (например, XML, INI и многие другие). Считается, что исходные тексты программ можно пересылать именно в их исконном виде... это правильно, но только если (а) компьютер получателя использует ту же кодировку, что и компьютер отправителя или (б) комментарии в исходном тексте на английском языке. Иначе получателю, чтобы прочитать комментарии, придется прибегать к всевозможным трюкам. Кстати, в Mac OS X и в Windows кодировка большинства "маленьких" букв... совпадает (кроме "я", "ь", "ъ" и "ё"). "Большие" все разные. Это может пригодиться. Для пересылки небольших по размеру текстов по электронной почте иногда лучше всего просто впечатать (или скопировать) текст в тело сообщения. Почтовые клиенты умеют позаботиться о кодировках. Почти всегда полученный текст удается прочитать (иногда попробовав для этого несколько кодировок из списка предлагаемых почтовым клиентом).

Достоинства простого текстового формата:
- простота
- экономичность
- это открытый стандарт

Недостатки:
- при обмене данными между компьютерами различных платформ возможны конфликты кодировок
- не поддерживаются стили текста и графика

3. RTF

"Богатый текстовый формат" (Rich Text Format) был разработан корпорацией Microsoft в начале 90-х годов прошлого века, его поддерживают большинство версий Microsoft Word (все версии, выпущенные после 95 года), а также многие другие программы - в том числе и бесплатно поставляемые вместе с различными операционными системами, такие как WordPad в Windows и Text Edit в Mac OS X. Многие текстовые процессоры умеют импортировать и экспортировать файлы в этом формате (то есть, "читать" и "писать"). При экспорте из текстового процессора в RTF часть информации (графика: иллюстрации, схемы, диаграммы, графики и т.п.) теряется. В Mac OS X, RTF - стандарт представления текста (наряду с "простым текстом"). На его основе разработан формат RTFD (Rich Text Format Directory), позволяющий сохранять графику, мультимедиа и много чего еще. Пользователям компьютера Макинтош следует помнить о том, что формат RTFD... неизвестен на других платформах. Но если вы получили что-то очень важное именно в этом формате, вы сможете его "прочитать": RTFD представляет из себя директорию, в которой обязательно есть файл TXT.rtf (в нем весь текст документа, в стандартном RTF, со всеми стилями и т.п.), и, в виде отдельных файлов - вся графика, мультимедиа и "все, что угодно", включенная автором в RTFD-документ. Файлы RTF являются обычными текстовыми файлами, которые можно прочитать с помощью любой программы, умеющей читать такие файлы. Содержимое RTF состоит из команд и "собственно текста". С помощью команд задаются стили текста, выбор шрифта, размер шрифта, кодировки и т.п. RTF - оптимальный формат для прикрепления к почтовому сообщению, особенно если получатель должен не только прочитать полученный документ, но и внести в него какие-то дополнения. О том, как с его помощью пересылать то, что он не умеет, читайте ниже.

Достоинства RTF:
- сохраняет информацию о выбранных автором шрифтах, кодировках, стилях, цвете текста
- читается на различных компьютерных платформах
- многие программы (в их числе бесплатные) умеют с ним работать
- это открытый стандарт

Недостатки:
- не поддерживает графику
- занимает больше места на диске, чем простые текстовые файлы

4. DOC

DOC - файлы в формате Microsoft Word. Это бинарный (нетекстовый) формат. Позволяет сохранять не только текст, стили и данные о шрифтах и кодировках, но и графику, комментарии к тексту, выделение фрагментов текста маркером, и многое другое. Формат является собственностью корпорации Microsoft, и время от времени претерпевает радикальные изменения. Поседний раз такое радикальное изменение произошло в Word 2007 (правда, на этот раз изменилось и расширение, используемое для файлов в формате DOCX - теперь это не ".doc", а ".docx". Новый формат основан на XML. Вопреки широко распространенному заблуждению, формат DOC поддерживается не только в Windows. Его успешно "читают" и "правят" пользователи, например, Mac OS X, у которых на компьютере установлен MS Office для Мака (Microsoft - крупнейший в мире маковский разработчик), или iWorks, офисный пакет разработки Apple. Тем не менее, в качестве формата для прикрепленных к почтовому сообщению документов не рекомендуется. Велика вероятность того, что на компьютере получателя не окажется программы, умеющей читать этот формат.

Достоинства DOC:
- сохраняет всю информацию о форматах и стилях текста
- с большой вероятностью может быть прочитан на компьютере получателя

Недостатки:
- проприетарный формат
- занимает больше места на диске, чем простые текстовые файлы
- с большой вероятностью может не читаться на компьютере получателя

5. HTML

Основной рабочий формат всемирной паутины. Разработан Тимом Бернерсом-Ли в 1993 году, на компьютере NeXT (в операционной системе NeXTstep, одном из предков Mac OS X). Основное предназначение этого формата - гиперссылки. Конструкции, позволяющие быстро переходить к другим местам в тексте, где бы они не находились (внутри самого документа, в другом документе той же файловой системы, где-то на планете Земля, а скоро к ним добавится и "где-то в Солнечной системе"). По сути это еще один "богатый текстовый формат" (см. RTF), но с рядом важных отличий. Он "богаче" (может ссылаться на графику и мультимедия, каскады форматов (CSS), поддерживает с десяток языков скриптования и программирования (JavaScript, Python, Ruby, AppleScript, Visual Basic и другие). Помимо текстов, на HTML вполне можно программировать несложные "программы" - например, на Всероссийской Коференции Маковских Разработчиков весной 1998 года, аспирантка одного из Московских медицинских институтов продемонстрировала программу диагностирования рака молочной железы, написанную исключительно на HTML (совместимую с любым интернет-браусером в мире), и тем не менее, очень эффективную и полезную. Файлы в формате HTML можно использовать для передачи самого сложного и богатого "контента", но для этого приходится использовать большое число различных вспомогательных файлов. Большинство (все?) современных почтовых клиентов поддерживают, помимо "чисто текстового" формата сообщений, еще и сообщения в HTML. И почти у всех почтовых клиентов в мире с чтением таких почтовых сообщений есть те или иные проблемы. Прикреплять документы в виде HTML к почтовым сообщениям... можно. Но с умом. Следует помнить, что иллюстрации, диаграммы и прочая графическая информация, отображаемая на HTML-страницах в интернет-браусере, существует в виде отдельных файлов, на которые в теле таких документов должна быть "жесткая" ссылка. Подробнее см. в разделе про ZIP. Большинство браусеров умеет работать с кодировками, и позволяет (если в документе не указана правильная кодировка, или она не указана вообще) выбрать кодировку интерпретации данных из списка.

Достоинства HTML:
- сохраняет информацию о выбранных автором шрифтах, кодировках, стилях, цвете текста
- читается на различных компьютерных платформах
- многие программы (в их числе бесплатные) умеют с ним работать
- это открытый стандарт

Недостатки:
- графика хранится отдельно
- часто представляет из себя не отдельный файл, а целую группу файлов
- занимает больше места на диске, чем простые текстовые файлы

6. PDF

PDF - это Portable Document Format. Переносимый формат представления документов. По замыслу разработчиков (Adobe Corporation), такие документы должны одинаково воспроизводиться на самых разных компьютерных платформах, независимо от кодировок, наличия или отсутствия шрифтов, которые использованы при создании документа. Это открытый формат. Adobe публикует детальную спецификацию всех его версий, в виде документа в формате PDF из многих сотен страниц. Программа для чтения этого формата (Acrobat Reader) бесплатно распространяется в вариантах для основных платформ. На некоторых платформах этот формат поддерживается самой операционной системой. Важная особенность формата PDF: это формат для чтения. Своего рода "электронная бумага". Генерация документов в этом формате напоминает печать на принтер. Напечатанное можно слегка подправить (в PDF-документ можно добавить "аннотации"), но для внесения исправлений надо "печатать документ заново". Специальных программ, которые позволяли бы создавать и редактировать PDF подобно тому, как мы редактируем RTF или DOC, нет. Документ создается с помощью самых разных прикладных программ, и затем сохраняется в формате PDF в точно таком же виде, в каком он был бы отпечатан. Некоторые программы позволяют редактировать содержимое PDF (поскольку это "почти графический формат"), но для внесения исправлений лучше... "внести изменения в исходный файл, и отпечатать (отпидиэфить?) его заново". Для выполнения главной своей функции (одинакового отображения документа на разных платформах), всё, что использовано при создании исходного документа PDF-файл должен "нести в себе". Шрифты (кроме 14 шрифтов, именуемых "базовыми", которые обязательно должны быть установлены в любой операционной системе, чтобы она могла корректно работать с PDF), всевозможная графика, текст. Для экономии дискового пространства к элементам применяются различные алгоритмы сжатия. Для защиты содержания файлов от несанкционированного прочтения, оно может быть закодировано, а доступ к файлу запаролен. Начиная с версии 1.2, в PDF поддерживаются "гиперссылки" (см. HTML), а с версии 1.4, формат поддерживает "прозрачность". Если получатель не должен вносить исправления в отправляемый ему документ, PDF - почти идеальный формат для прикрепления к почтовому сообщению. Получатель прочитает его именно таким, каким его создаст отправитель.

Достоинства PDF:
- сохраняет всю информацию о формате документа
- читается на различных компьютерных платформах
- многие программы (в их числе бесплатные) умеют с ним работать
- это открытый стандарт

Недостатки:
- занимает значительно больше места на диске, чем простые текстовые файлы
- сложно редактировать

7. ZIP

Документ, который заслуживает внимания получателей, может быть отправлен в виде целого комплекта файлов. Директории, а в некоторых случаях - и целого дерева из различных директорий. Внутри этих директорий могут находиться файлы самых разных форматов - в том числе и исполняемый код или скрипты, оживляющие пересылаемые данные. Это может быть комплекс из многих HTML-файлов, с иллюстрациями и видеофрагментами. Это может быть целый web-сайт, или его фрагмент. Некоторые почтовые клиенты (старые) не поддерживают прикрепление директорий к сообщениям. Комплекс из многих файлов (или отдельный большой файл) разумнее всего пересылать в "сжатом" виде - например, в виде ZIP-архива. ZIP - открытый стандарт, понятный на самых разных платформах. В некоторых операционных системах поддержка этого формата осуществляется на уровне самой ОС. Достоинства и недостатки пересылки информации в сжатом виде очевидны.

При пересылке групп из нескольких файлов следует помнить о том, что...
- имена файлов на разных платформах кодируются в кодировках этих платформ, и на других могут быть трудно читаемы (или нечитаемы вообще), поэтому не стоит использовать в именах файлов оригинальную национальную графику (например, кириллицу или китайские иероглифы)
- содержание графических файлов, особенно файлов "современных" форматов, хранится в сжатом виде. Эффект от повторного сжатия таких файлов, в лучшем случае, незначителен.

8. Некоторые другие форматы...

тоже заслуживают внимания. Например, PostScript. Еще одна разработка Adobe Corporation. Это одновременно и язык программирования, и векторный графический стандарт, и язык описания документов... и стандартный формат вывода документов на печать (поддерживаемый всеми высококачественными и относительно дорогими принтерами). Прежде чем отправлять информацию в виде ps-файла (засширение PostScript), не мешает узнать, понимает ли компьютер получателя этот формат без лишних хлопот. В наше время это не самый популярный формат. Если заранее известно, что получатель использует такую же программу, что и вы, для прикрепления к почтовым сообщениям вполне подойдут документы таких программ. Например, таблицы или диаграммы Microsoft Excel, графика в формате Adobe Photoshop, или даже профессионально набранный текст в QuarkXPress. А еще, чтобы послать получателю диаграмму, график или фотографию, нет необходимости превращать отправляемое в HTML или PDF: просто превратите данные в файл графического формата (если данные еще не в нем), например, сделав моментальный снимок с экрана компьютера (скриншот), и отрезав от него лишнее...

Свиргстин Олег

 

Наверх