NAZWA

konwert - interfejs do ró¿nych konwersji kodowañ znaków

U¯YCIE

konwert FILTR [PLIK]... [-o WYNIK | -O]

OPIS

Konwert pozwala filtrowaæ wiele plików przez wiele filtrów. Filtruje podane PLIKI, albo stdin je¶li ¿adnych nie okre¶lono.

Prosty FILTR jest nazw± pliku wykonywalnego z katalogu ~/.konwert/filters albo z ogólnosystemowego, normalnie /usr/share/konwert/filters. Taki program sam filtruje stdin na stdout.

Regu³a filtrowania mo¿e byæ bradziej skomplikowana:

konwert FILTR1+FILTR2 znaczy konwert FILTR1 | konwert FILTR2.

konwert FORMAT1-FORMAT2, o ile taki filtr nie istnieje, próbuje znale¼æ wspólny FORMAT3, taki ¿e oba filtry FORMAT1-FORMAT3 i FORMAT3-FORMAT1 istniej±.

konwert FILTR/ARG/... przekazuje filtrowi argumenty. Argumenty mog± byæ te¿ podane tutaj: FORMAT1/ARG-FORMAT2. Znaczenie arguentów zale¿y od konkretnego filtru.

konwert '(KOMENDA ARG...)' wykonuje dane polecenie pow³oki. Jest to przydatne z opcjami -o albo -O. Komenda nie mo¿e zawieraæ ³añcucha )+, który zakoñczy specyfikacjê tego filtru.

OPCJE

-o WYNIK: wyj¶cie idzie do tego pliku/katalogu zamiast na stdout
-O: ka¿dy plik ¼ród³owy jest zastêpowany swoim t³umaczeniem
--help: wy¶wietla opis i wychodzi
--version: wy¶wietla informacjê o wersji i wychodzi

Przekierowanie wyj¶cia do jednego z plików ¼ród³owych przez -o albo > zamiast -O zniszczy ten plik! Opcja -O tworzy tymczasowy plik w /tmp i pó¼niej kopiuje go z powrotem na ¼ród³o.

KONWERSJE KODOWAÑ ZNAKÓW

Mo¿na konwertowaæ tekst miêdzy dowolnymi dwoma zestawami znaków, na przyk³ad konwert cp437-iso2.

Znaki niedostêpne w docelowym zestawie bêd± zast±pione przybli¿eniami dostêpnymi znakami. Przybli¿enia nie musz± byæ pojedynczymi znakami.

Filtry obs³uguj± teraz nastêpuj±ce zestawy znaków:

ascii: siedmiobitowe ASCII
utf8 = unicode: Unikod (Unicode) w UTF-8
iso1 = isolatin1: ISO-8859-1 albo ISO Latin 1 (zachodnioeuropejskie)
iso2 = isolatin2: ISO-8859-2 albo ISO Latin 2 (¶rodkowoeuropejskie)
iso3 = isolatin3: ISO-8859-3 albo ISO Latin 3 (Esperanto)
iso4 = isolatin4: ISO-8859-4 albo ISO Latin 4 (ba³tyckie)
iso5 = isolatincyr: ISO-8859-5 (cyrylica)
iso6 = isolatinarabic: ISO-8859-6 (arabskie)
iso7 = isolatingreek: ISO-8859-7 (greckie)
iso8 = isolatinhebrew: ISO-8859-8 (hebrajskie)
iso9 = isolatin5 = isolatintur: ISO-8859-9 albo ISO Latin 5 (tureckie)
iso10 = isolatin6 = isolatinnordic: ISO-8859-10 albo ISO Latin 6 (nordyckie)
iso12 = isolatin7 = isolatinceltic: ISO-8859-12 albo ISO Latin 6 (celtyckie) - Draft
iso13 = isolatin8 = isolatinbaltic: ISO-8859-13 albo ISO Latin 6 (ba³tyckie) - Draft
iso14 = isolatin9 = isolatinsami: ISO-8859-14 albo ISO Latin 6 (Sámi) - Draft
iso15: ISO-8859-15 - Draft
koi8r: KOI8-R (rosyjskie)
koi8u: KOI8-U (ukraiñskie, bia³oruskie)
koi8uni: KOI8-Uni (cyrylica)
cp1250 = wince = winlatin2: Windows CP-1250 albo Win Latin 2 (¶rodkowoeuropejskie)
cp1251 = wincyr: Windows CP-1251 (cyrylica)
cp1252 = winwest = winlatin1: Windows CP-1252 albo Win Latin 1 (zachodnioeuropejskie)
cp1253 = wingr: Windows CP-1253 (greckie)
cp1254 = wintur: Windows CP-1254 (tureckie)
cp1255 = winhebrew: Windows CP-1255 (hebrajskie)
cp1256 = winarabic: Windows CP-1256 (arabskie)
cp1257 = winbaltic: Windows CP-1257 (ba³tytckie)
cp1258 = winviet: Windows CP-1258 (wietnamskie)
cp437 = icmeng: DOS CP-437 (angielskie)
cp737 = dosgreek: DOS CP-737 (greckie)
cp775 = dosbaltic: DOS CP-775 (ba³tyckie)
cp850 = doswest = doslatin1: DOS CP-850 aka DOS Latin 1 (zachodnioeuropejskie)
cp852 = dosce = doslatin2: DOS CP-852 aka DOS Latin 2 (¶rodkowoeuropejskie)
cp855 = doscyr: DOS CP-855 (cyrylica)
cp857 = dostur: DOS CP-857 (tureckie)
cp860 = dosportugal: DOS CP-860 (portugalskie)
cp861 = dosiceland: DOS CP-861 (islandzkie)
cp862 = doshebrew: DOS CP-862 (hebrajskie)
cp863 = doscanadfr: DOS CP-863 (kanadyjskie - francuskie)
cp864 = dosarabic: DOS CP-864 (arabskie)
cp865 = dosnordic: DOS CP-865 (nordyckie)
cp866 = dosrussian: DOS CP-866 (rosyjskie)
cp869 = dosgreek2: DOS CP-869 (greckie 2)
cp874 = dosthai: DOS CP-874 (tajskie)
mac: Macintosh Roman (zachodnioeuropejskie)
macce: Macintosh Central European (wschodnioeuropejskie)
maccyr: Macintosh Cyrillic (cyrylica)
macgreek: Macintosh Greek (greckie)
maciceland: Macintosh Icelandic (islandzkie)
mactur: Macintosh Turkish (tureckie)
csk,
cyfromat,
dhn,
fidomazovia,
iea,
logic,
mazovia,
microvex: DOSowe zestawy znaków do polskiego
amigapl,
fat,
xjp: Amigowe zestawy znaków do polskiego
kamenicky: DOSowy zestaw znaków do czeskiego i s¥owackiego
wingreek: WinGreek (kodowanie dla staro¿ytnej greki wed³ug windowsowego fontu)
babelpl: TeX [polish]{babel}: "a"c"e"l"n"o"s"z"r
ciachy: TeX \prefixing: /a/c/e/l/n/o/s/x/z
xmetodo: Esperanto: cx gx hx jx sx ux (vx w)
hmetodo: Esperanto: ch gh hh jh sh u
antauxcxap: Esperanto: ^c ^g ^h ^j ^s ^u (~u)
postcxap: Esperanto: c^ g^ h^ j^ s^ u^ (u~)
apostrofoj: Esperanto: c' g' h' j' s' u'
malapostrofoj: Esperanto: c` g` h` j` s` u`
viscii: VISCII (wietnamski)
viqri: Vietnamese Quoted Readable Implicit
htmldec: SGMLowe/HTMLowe numery znaków (dziesi±tkowo): Æ ě →
htmlhex: SGMLowe/HTMLowe numery znaków (szesnastkowo) Æ ě →
htmlent: SGMLowe/HTMLowe encje (nazwy znaków): Æ &ecaron →
html: Wszystkie trzy powy¿ej (tylko jako format wej¶ciowy)
tex: TeX wraz z niektórymi rozszerzeniami LaTeXa albo AMS-TeXa. Nie ma rozró¿nienia miêdzy normalnym trybem a matematycznym - prawdopodobbie bêdziesz musia³ rêcznie podostawiaæ trochê znaków $.
mnemonic: Mnemoniki RFC 1345 poprzedzone przez &
mnemonic1: Mnemoniki RFC 1345 poprzedzone przez `
any/JÊZYK (np. any/pl-iso2): Ten specjalny format wej¶ciowy rozpozna kodowanie automatycznie, na podstawie czêsto¶ci znaków znalezionych w tek¶cie. Z ka¿dym jêzykiem jest skojarzony zbiór mo¿liwych kodowañ u¿ywanych dla niego i ¶rednie czêsto¶ci jego liter (wy³±czaj±c litery ASCII). U¿yte zostanie najlepiej pasuj±ce kodowanie. Filtr obs³uguje teraz jêzyki cs (czeski), de (niemiecki), el (grecki), eo (Esperanto), es (hiszpañski), fr (francuski), he (hebrajski), it (w³oski), pl (polski), pt (portugalski), ru (rosyjski) i sv (szwedzki).
varpl: Wymieszane polskie ISO-8859-2, CP-1250 i UTF-8. W polskich warunkach sugerujê podpiêcie tego jako filtr w czytniku newsów (dla szybko¶ci lepiej wo³aæ bezpo¶rednio, a nie przez konwerta).
vareo: Wymieszane ró¿ne kodowania Esperanta.

OPCJE KONTROLUJ¡CE POWY¯SZE KONWERSJE

/1 (np. konwert iso2-ascii/1): Ka¿dy niedostêpny znak bêdzie zast±piony przez pojedynczy przybli¿aj±cy znak, a nie przez napis. Przydatne dla programu filterm albo dla preformatowanego tekstu. Ta opcja jest automatycznie w³±czana je¶li filtr jest u¿ywany jako wyj¶cie filterma.
/html: Zak³ada, ¿e tekst jest HTMLem. Znaki " & < > wynik³e z przybli¿eñ innych znaków bêd± prawid³owo wyeskejpowane do " & < >. Nag³ówek <META http-equiv="content-type" content="text/html; charset=..."> bêdzie poprawiony je¶li wyst±pi.
/htmldec: Konwertuje META jak wy¿ej. Niedostêpne znaki bêd± zakodowane w &#Unikodzie;.
/htmlhex: Konwertuje META jak wy¿ej. Niedostêpne znaki bêd± zakodowane w szesnastkowym &#xUnikodzie;.
/tex: Niedostêpne znaki bêd± opisane w TeXu. Znaki # $ % & ^ _ { | } ~ wynik³e z przybli¿eñ niektórych znaków bêd± prawid³owo wyeskejpowane do \# \% \& $\backslash$ \^{} \_ \{ $|$ \} \\~{}.
/asciichar: Rozpoznaje niektóre reprezentacje znaków w ASCII, np. (c) ... 1/2 >=.
/rosyjski: Rosyjski tekst bêdzie oddany w polskiej transkrypcji fonetycznej.

Niektóre filtry wyj¶ciowe mog± u¿yæ informacji o jêzyku do lepszego przybli¿enia niedostêpnych liter, np. w /de (niemieckim): ä → ae zamiast a.

INNE FILTRY

any/JÊZYK-test: Rozpoznaje kodowanie, ale zamiast konwersji tekstu pokazuje tylko nazwê kodowania. Dodatkowa opcja /all pokazuje wszystkie mo¿liwe kodowania, posortowane od lepszych do gorszych.
cr
lf
crlf: Wymusza okre¶lon± konwencjê oznaczenia koñców linii. cr = Macintosh, lf = Unix i Amiga, crlf = Windows i DOS. Konwencja wej¶ciowa jest rozpoznawana automatycznie.
expand: Rozwija tabulacje na spacje (u¿ywa programu expand z textutils).
unexpand: Kompresuje spacje na pocz±tku linii do tabulacji (u¿ywa programu unexpand z textutils).
rmspacesateol: Usuwa spacje i tabulacje z koñców linii.
qp-8bit
8bit-qp: Kodowanie MIME Quoted Printable: =A3=F3d=BC.
rtf-8bit
8bit-rtf: Rich Text Format: \\'a3\\'f3d\\'9f.
txt-htmlchar: Eskejpuje " & < > w SGMLowe/HTMLowe encje " & < >. Wygodne do w³±czania pliku tekstowego w HTMLowych tagach <PRE> </PRE>.
htmlchar-txt: W drug± stronê.
rot13: Gb wrfg qrzbafgenpwn ebg13.
toupper
tolower: Zamienia tekst na du¿e / ma³e litery. Na razie tylko ASCII.
prn7pl: Konwertuje polskie znaki na sekwencje sterujêce drukarki zgodnej z EPSON wykorzystuj±c jedynie podstawowe znaki 7-bitowe, cofaj±c g³owicê drukarki i drukuj±c na odpowiedniej wysoko¶ci ,.'` daj±ce w sumie pseudo- polskie znaki. Przyjmuje opcje: /nlq (domy¶lne) optymalizowane do drukarek o lepszej rozdzielczo¶ci i /draft - np. dla trybu draft 9-ig³ówki.

PLIKI

/usr/share/konwert/filters/*
~/.konwert/filters/*

ZOBACZ TE¯

trs(1), filterm(1)

B£ÊDY

Znak APPLE i zestawach mac* oraz znaki CH i ch w koi8cs nie s± zachowywane przy konwersji nawet kiedy s± dostêpne. Równie¿ nie przestrzegaj± opcji /1. Powód: nie ma ich w Unikodzie.

COPYRIGHT

Konwert jest pakietem s³u¿±cym do konwersji miêdzy ró¿nymi kodowaniami znaków.

Niniejszy program jest oprogramowaniem wolnodostêpnym; mo¿esz go rozprowadzaæ dalej i/lub modyfikowaæ na warunkach Powszechnej Licencji Publicznej GNU, wydanej przez Fundacjê Wolnodostêpnego Oprogramowania - wed³ug wersji 2-giej tej Licencji lub której¶ z pó¼niejszych wersji.

Niniejszy program rozpowszechniany jest z nadziej±, i¿ bêdzie on u¿yteczny - jednak BEZ JAKIEJKOLWIEK GWARANCJI, nawet domy¶lnej gwarancji PRZYDATNO¦CI HANDLOWEJ albo PRZYDATNO¦CI DO OKRE¦LONYCH ZASTOSOWAÑ. W celu uzyskania bli¿szych informacji - Powszechna Licencja Publiczna GNU.

Z pewno¶ci± wraz z niniejszym programem otrzyma³e¶ te¿ egzemplarz Powszechnej Licencji Publicznej GNU; je¶li nie - napisz do Free Software Foundation, Inc., 59 Temple Place, Suite 330, Boston, MA 02111-1307 USA

AUTOR

 __("<   Marcin Kowalczyk * qrczak@knm.org.pl http://qrczak.home.ml.org/
 \__/       GCS/M d- s+:-- a21 C+++>+++$ UL++>++++$ P+++ L++>++++$ E->++
  ^^                W++ N+++ o? K? w(---) O? M- V? PS-- PE++ Y? PGP->+ t
QRCZAK                  5? X- R tv-- b+>++ DI D- G+ e>++++ h! r--%>++ y-