konwert - interfejs do ró¿nych konwersji
kodowañ znaków
konwert FILTR [PLIK]... [-o
WYNIK | -O]
Konwert pozwala filtrowaæ wiele plików przez wiele
filtrów. Filtruje podane PLIKI, albo stdin je¶li
¿adnych nie okre¶lono.
Prosty FILTR jest nazw± pliku wykonywalnego z
katalogu ~/.konwert/filters albo z ogólnosystemowego,
normalnie /usr/share/konwert/filters. Taki program sam filtruje stdin
na stdout.
Regu³a filtrowania mo¿e byæ bradziej
skomplikowana:
konwert FILTR1+FILTR2 znaczy
konwert FILTR1 | konwert FILTR2.
konwert FORMAT1-FORMAT2, o ile taki
filtr nie istnieje, próbuje znale¼æ wspólny
FORMAT3, taki ¿e oba filtry
FORMAT1-FORMAT3 i FORMAT3-FORMAT1
istniej±.
konwert FILTR/ARG/...
przekazuje filtrowi argumenty. Argumenty mog± byæ te¿
podane tutaj: FORMAT1/ARG-FORMAT2.
Znaczenie arguentów zale¿y od konkretnego filtru.
konwert '(KOMENDA ARG...)' wykonuje
dane polecenie pow³oki. Jest to przydatne z opcjami -o albo
-O. Komenda nie mo¿e zawieraæ ³añcucha
)+, który zakoñczy specyfikacjê tego filtru.
- -o WYNIK
- wyj¶cie idzie do tego pliku/katalogu zamiast na stdout
- -O
- ka¿dy plik ¼ród³owy jest zastêpowany
swoim t³umaczeniem
- --help
- wy¶wietla opis i wychodzi
- --version
- wy¶wietla informacjê o wersji i wychodzi
Przekierowanie wyj¶cia do jednego z plików
¼ród³owych przez -o albo > zamiast
-O zniszczy ten plik! Opcja -O tworzy tymczasowy plik w
/tmp i pó¼niej kopiuje go z powrotem na
¼ród³o.
Mo¿na konwertowaæ tekst miêdzy dowolnymi
dwoma zestawami znaków, na przyk³ad konwert
cp437-iso2.
Znaki niedostêpne w docelowym zestawie bêd±
zast±pione przybli¿eniami dostêpnymi znakami.
Przybli¿enia nie musz± byæ pojedynczymi znakami.
Filtry obs³uguj± teraz nastêpuj±ce
zestawy znaków:
- ascii
- siedmiobitowe ASCII
- utf8 = unicode
- Unikod (Unicode) w UTF-8
- iso1 = isolatin1
- ISO-8859-1 albo ISO Latin 1 (zachodnioeuropejskie)
- iso2 =
isolatin2
- ISO-8859-2 albo ISO Latin 2 (¶rodkowoeuropejskie)
- iso3 =
isolatin3
- ISO-8859-3 albo ISO Latin 3 (Esperanto)
- iso4 =
isolatin4
- ISO-8859-4 albo ISO Latin 4 (ba³tyckie)
- iso5 =
isolatincyr
- ISO-8859-5 (cyrylica)
- iso6 =
isolatinarabic
- ISO-8859-6 (arabskie)
- iso7 =
isolatingreek
- ISO-8859-7 (greckie)
- iso8 =
isolatinhebrew
- ISO-8859-8 (hebrajskie)
- iso9 = isolatin5 =
isolatintur
- ISO-8859-9 albo ISO Latin 5 (tureckie)
- iso10 = isolatin6 =
isolatinnordic
- ISO-8859-10 albo ISO Latin 6 (nordyckie)
- iso12 = isolatin7 =
isolatinceltic
- ISO-8859-12 albo ISO Latin 6 (celtyckie) - Draft
- iso13 = isolatin8 =
isolatinbaltic
- ISO-8859-13 albo ISO Latin 6 (ba³tyckie) - Draft
- iso14 = isolatin9 =
isolatinsami
- ISO-8859-14 albo ISO Latin 6 (Sámi) - Draft
- iso15
- ISO-8859-15 - Draft
- koi8r
- KOI8-R (rosyjskie)
- koi8u
- KOI8-U (ukraiñskie, bia³oruskie)
- koi8uni
- KOI8-Uni (cyrylica)
- cp1250 = wince = winlatin2
- Windows CP-1250 albo Win Latin 2 (¶rodkowoeuropejskie)
- cp1251 =
wincyr
- Windows CP-1251 (cyrylica)
- cp1252 = winwest =
winlatin1
- Windows CP-1252 albo Win Latin 1 (zachodnioeuropejskie)
- cp1253 =
wingr
- Windows CP-1253 (greckie)
- cp1254 =
wintur
- Windows CP-1254 (tureckie)
- cp1255 =
winhebrew
- Windows CP-1255 (hebrajskie)
- cp1256 =
winarabic
- Windows CP-1256 (arabskie)
- cp1257 =
winbaltic
- Windows CP-1257 (ba³tytckie)
- cp1258 =
winviet
- Windows CP-1258 (wietnamskie)
- cp437 = icmeng
- DOS CP-437 (angielskie)
- cp737 =
dosgreek
- DOS CP-737 (greckie)
- cp775 =
dosbaltic
- DOS CP-775 (ba³tyckie)
- cp850 = doswest =
doslatin1
- DOS CP-850 aka DOS Latin 1 (zachodnioeuropejskie)
- cp852 = dosce =
doslatin2
- DOS CP-852 aka DOS Latin 2 (¶rodkowoeuropejskie)
- cp855 =
doscyr
- DOS CP-855 (cyrylica)
- cp857 =
dostur
- DOS CP-857 (tureckie)
- cp860 =
dosportugal
- DOS CP-860 (portugalskie)
- cp861 =
dosiceland
- DOS CP-861 (islandzkie)
- cp862 =
doshebrew
- DOS CP-862 (hebrajskie)
- cp863 =
doscanadfr
- DOS CP-863 (kanadyjskie - francuskie)
- cp864 =
dosarabic
- DOS CP-864 (arabskie)
- cp865 =
dosnordic
- DOS CP-865 (nordyckie)
- cp866 =
dosrussian
- DOS CP-866 (rosyjskie)
- cp869 =
dosgreek2
- DOS CP-869 (greckie 2)
- cp874 =
dosthai
- DOS CP-874 (tajskie)
- mac
- Macintosh Roman (zachodnioeuropejskie)
- macce
- Macintosh Central European (wschodnioeuropejskie)
- maccyr
- Macintosh Cyrillic (cyrylica)
- macgreek
- Macintosh Greek (greckie)
- maciceland
- Macintosh Icelandic (islandzkie)
- mactur
- Macintosh Turkish (tureckie)
- csk,
- cyfromat,
- dhn,
- fidomazovia,
- iea,
- logic,
- mazovia,
- microvex
- DOSowe zestawy znaków do polskiego
- amigapl,
- fat,
- xjp
- Amigowe zestawy znaków do polskiego
- kamenicky
- DOSowy zestaw znaków do czeskiego i s¥owackiego
- wingreek
- WinGreek (kodowanie dla staro¿ytnej greki wed³ug
windowsowego fontu)
- babelpl
- TeX [polish]{babel}:
"a"c"e"l"n"o"s"z"r
- ciachy
- TeX \prefixing: /a/c/e/l/n/o/s/x/z
- xmetodo
- Esperanto: cx gx hx jx sx ux (vx w)
- hmetodo
- Esperanto: ch gh hh jh sh u
- antauxcxap
- Esperanto: ^c ^g ^h ^j ^s ^u (~u)
- postcxap
- Esperanto: c^ g^ h^ j^ s^ u^ (u~)
- apostrofoj
- Esperanto: c' g' h' j' s' u'
- malapostrofoj
- Esperanto: c` g` h` j` s` u`
- viscii
- VISCII (wietnamski)
- viqri
- Vietnamese Quoted Readable Implicit
- htmldec
- SGMLowe/HTMLowe numery znaków (dziesi±tkowo): Æ
ě →
- htmlhex
- SGMLowe/HTMLowe numery znaków (szesnastkowo) Æ
ě →
- htmlent
- SGMLowe/HTMLowe encje (nazwy znaków): Æ &ecaron
→
- html
- Wszystkie trzy powy¿ej (tylko jako format wej¶ciowy)
- tex
- TeX wraz z niektórymi rozszerzeniami LaTeXa albo AMS-TeXa. Nie ma
rozró¿nienia miêdzy normalnym trybem a matematycznym
- prawdopodobbie bêdziesz musia³ rêcznie
podostawiaæ trochê znaków $.
- mnemonic
- Mnemoniki RFC 1345 poprzedzone przez &
- mnemonic1
- Mnemoniki RFC 1345 poprzedzone przez `
- any/JÊZYK
(np. any/pl-iso2)
- Ten specjalny format wej¶ciowy rozpozna kodowanie automatycznie, na
podstawie czêsto¶ci znaków znalezionych w
tek¶cie. Z ka¿dym jêzykiem jest skojarzony
zbiór mo¿liwych kodowañ u¿ywanych dla niego i
¶rednie czêsto¶ci jego liter
(wy³±czaj±c litery ASCII). U¿yte zostanie
najlepiej pasuj±ce kodowanie. Filtr obs³uguje teraz
jêzyki cs (czeski), de (niemiecki), el
(grecki), eo (Esperanto), es (hiszpañski), fr
(francuski), he (hebrajski), it (w³oski), pl
(polski), pt (portugalski), ru (rosyjski) i sv
(szwedzki).
- varpl
- Wymieszane polskie ISO-8859-2, CP-1250 i UTF-8. W polskich warunkach
sugerujê podpiêcie tego jako filtr w czytniku newsów
(dla szybko¶ci lepiej wo³aæ bezpo¶rednio, a
nie przez konwerta).
- vareo
- Wymieszane ró¿ne kodowania Esperanta.
- /1 (np. konwert iso2-ascii/1)
- Ka¿dy niedostêpny znak bêdzie zast±piony przez
pojedynczy przybli¿aj±cy znak, a nie przez napis. Przydatne
dla programu filterm albo dla preformatowanego tekstu. Ta opcja jest
automatycznie w³±czana je¶li filtr jest
u¿ywany jako wyj¶cie filterma.
- /html
- Zak³ada, ¿e tekst jest HTMLem. Znaki " & <
> wynik³e z przybli¿eñ innych znaków
bêd± prawid³owo wyeskejpowane do "
& < >. Nag³ówek <META
http-equiv="content-type" content="text/html;
charset=..."> bêdzie poprawiony je¶li
wyst±pi.
- /htmldec
- Konwertuje META jak wy¿ej. Niedostêpne znaki
bêd± zakodowane w &#Unikodzie;.
- /htmlhex
- Konwertuje META jak wy¿ej. Niedostêpne znaki
bêd± zakodowane w szesnastkowym &#xUnikodzie;.
- /tex
- Niedostêpne znaki bêd± opisane w TeXu. Znaki # $ %
& ^ _ { | } ~ wynik³e z przybli¿eñ
niektórych znaków bêd± prawid³owo
wyeskejpowane do \# \% \& $\backslash$ \^{} \_ \{ $|$ \}
\\~{}.
- /asciichar
- Rozpoznaje niektóre reprezentacje znaków w ASCII, np. (c)
... 1/2 >=.
- /rosyjski
- Rosyjski tekst bêdzie oddany w polskiej transkrypcji
fonetycznej.
Niektóre filtry wyj¶ciowe mog±
u¿yæ informacji o jêzyku do lepszego
przybli¿enia niedostêpnych liter, np. w /de
(niemieckim): ä → ae zamiast a.
- any/JÊZYK-test
- Rozpoznaje kodowanie, ale zamiast konwersji tekstu pokazuje tylko
nazwê kodowania. Dodatkowa opcja /all pokazuje wszystkie
mo¿liwe kodowania, posortowane od lepszych do gorszych.
- cr
- lf
- crlf
- Wymusza okre¶lon± konwencjê oznaczenia
koñców linii. cr = Macintosh, lf = Unix i
Amiga, crlf = Windows i DOS. Konwencja wej¶ciowa jest
rozpoznawana automatycznie.
- expand
- Rozwija tabulacje na spacje (u¿ywa programu expand z
textutils).
- unexpand
- Kompresuje spacje na pocz±tku linii do tabulacji (u¿ywa
programu unexpand z textutils).
- rmspacesateol
- Usuwa spacje i tabulacje z koñców linii.
- qp-8bit
- 8bit-qp
- Kodowanie MIME Quoted Printable: =A3=F3d=BC.
- rtf-8bit
- 8bit-rtf
- Rich Text Format: \\'a3\\'f3d\\'9f.
- txt-htmlchar
- Eskejpuje " & < > w SGMLowe/HTMLowe encje
" & < >. Wygodne do
w³±czania pliku tekstowego w HTMLowych tagach <PRE>
</PRE>.
- htmlchar-txt
- W drug± stronê.
- rot13
- Gb wrfg qrzbafgenpwn ebg13.
- toupper
- tolower
- Zamienia tekst na du¿e / ma³e litery. Na razie tylko
ASCII.
- prn7pl
- Konwertuje polskie znaki na sekwencje sterujêce drukarki zgodnej z
EPSON wykorzystuj±c jedynie podstawowe znaki 7-bitowe,
cofaj±c g³owicê drukarki i drukuj±c na
odpowiedniej wysoko¶ci ,.'` daj±ce w sumie pseudo- polskie
znaki. Przyjmuje opcje: /nlq (domy¶lne) optymalizowane do
drukarek o lepszej rozdzielczo¶ci i /draft - np. dla trybu
draft 9-ig³ówki.
- /usr/share/konwert/filters/*
- ~/.konwert/filters/*
Znak APPLE i zestawach mac* oraz znaki CH i ch w koi8cs nie
s± zachowywane przy konwersji nawet kiedy s± dostêpne.
Równie¿ nie przestrzegaj± opcji /1. Powód: nie
ma ich w Unikodzie.
Konwert jest pakietem s³u¿±cym do konwersji
miêdzy ró¿nymi kodowaniami znaków.
Copyright (c) 1998 Marcin 'Qrczak' Kowalczyk
Niniejszy program jest oprogramowaniem wolnodostêpnym;
mo¿esz go rozprowadzaæ dalej i/lub modyfikowaæ na
warunkach Powszechnej Licencji Publicznej GNU, wydanej przez Fundacjê
Wolnodostêpnego Oprogramowania - wed³ug wersji 2-giej tej
Licencji lub której¶ z pó¼niejszych wersji.
Niniejszy program rozpowszechniany jest z nadziej±,
i¿ bêdzie on u¿yteczny - jednak BEZ JAKIEJKOLWIEK
GWARANCJI, nawet domy¶lnej gwarancji PRZYDATNO¦CI HANDLOWEJ
albo PRZYDATNO¦CI DO OKRE¦LONYCH ZASTOSOWAÑ. W celu
uzyskania bli¿szych informacji - Powszechna Licencja Publiczna
GNU.
Z pewno¶ci± wraz z niniejszym programem
otrzyma³e¶ te¿ egzemplarz Powszechnej Licencji
Publicznej GNU; je¶li nie - napisz do Free Software Foundation, Inc.,
59 Temple Place, Suite 330, Boston, MA 02111-1307 USA
__("< Marcin Kowalczyk * qrczak@knm.org.pl http://qrczak.home.ml.org/
\__/ GCS/M d- s+:-- a21 C+++>+++$ UL++>++++$ P+++ L++>++++$ E->++
^^ W++ N+++ o? K? w(---) O? M- V? PS-- PE++ Y? PGP->+ t
QRCZAK 5? X- R tv-- b+>++ DI D- G+ e>++++ h! r--%>++ y-