Charakterystyka plików tekstowych.pdf

(85 KB) Pobierz
pliki_tekstowe
I. C HARAKTERYSTYKA PLIKÓW TEKSTOWYCH .
Co to jest plik?
Plik jest to ciąg zer i jedynek, czyli ciąg bitów. Bity te słuŜą do zapisania określonej informacji -
na dysku, dyskietce, płycie CD-ROM lub DVD.
Innymi słowy kaŜdy plik jest nieprzerwanym ciągiem zer i jedynek dlatego aby wiedzieć
jak go odczytać musimy nauczyć się rozróŜniać formaty plików. KaŜdy format pliku powiązany
jest z odpowiednim oprogramowaniem.
Co to jest EDYTOR TEKSTOWY?
Edytor tekstowy lub inaczej procesor tekstowy jest to program komputerowy słuŜący
do przetwarzania tekstu. Przetwarzanie tekstu to jego wprowadzanie, modyfikowanie
oraz przeglądanie.
Zaawansowane edytory oferują funkcje składu komputerowego, czyli łączenia tekstu z grafiką,
formatowania układu tekstu (np. tworzenie kolumn tekstu). Mają równieŜ funkcje sprawdzania
pisowni (ortografia i gramatyka), pisania równań matematycznych, tworzenia ozdobnych efektów
tekstowych. Często posiadają wbudowane proste edytory graficzne, pozwalające na tworzenie
lub szybką korektę umieszczanej w dokumencie grafiki.
DOC - Microsoft Word
+ Zaawansowana edycja tekstów.
·
Zmiana właściwości czcionki (krój, kolor, styl).
·
Łączenie grafiki i tekstu.
·
MoŜliwość dodawania komentarzy.
MoŜliwość wykorzystania wtyczek Microsoft - edytor równań, WordArt (teksty 3D),…
+ Jeden z najbardziej rozpowszechnionych formatów plików tekstowych.
+ Pliki DOC mogą zawierać w sobie programy (makra).
+ Pliki mogą być zabezpieczane hasłem.
- Wygląd dokumentu moŜe ulec zmianie (uszkodzeniu) jeśli plik zostanie otwarty w innej wersji
programu niŜ ta, w której został stworzony.
RTF - tekst formatowany ( rich text format)
Pliki RTF zostały opracowane przez Microsoft w 1997r. Do międzyplatformowej wymiany informacji.
Są domyślnym formatem dla programu WordPad (Microsoft Windows) oraz TextEdit (Mac OS X).
+ Uniwersalny format plików tekstowych.
+ Mogą być otwierane przez większość edytorów tekstowych.
+ Pozwala na zaawansowane formatowanie tekstu.
+ Wygląd dokumentów nie zmienia się w zaleŜności od wersji oprogramowania.
+ MoŜe zawierać elementy graficzne oraz tabele.
- DuŜy rozmiar plików.
TXT - czysty tekst.
+ Pliki TXT mają bardzo małe rozmiary.
+ Mogą być odczytane na kaŜdym komputerze.
- Nie pozwalają na formatowanie tekstu.
- Nie moŜna w nich umieszczać tabel ani elementów graficznych.
HTML - pliki stron www - hipertext markup language
+ MoŜna je odczytać w przeglądarkach stron www oraz w edytorach tekstu.
+ Pliki mają niewielkie rozmiary.
+ Dzięki moŜliwości tworzenia hiperłączy są łatwe w nawigacji.
+ Pliki HTML moŜna tworzyćprzy uŜyciu edytora tekstu lub specjalnego edytora html.
Nie jest konieczna znajomość języka html.
+ Tekst moŜe być formatowany.
+ MoŜna tworzyć tabele i wstawiać elementy graficzne.
- Drukowanie plików html nie jest "przyjazne" dla uŜytkownika.
mgr inŜ. Alicja Pituła-Wilczyńska
·
10162135.006.png
PDF - portable document format
Jest to format słuŜący do prezentacji, przenoszenia i drukowania treści tekstowo-graficznych.
Został stworzony przez firmę Adobe Systems.
Pliki PDF moŜna przeglądać w specjalnej darmowej przeglądarce Adobe Acrobat Reader.
Instytucje rządowe, edukacyjne, biznesowe oraz inne zaadaptowały pliki PDF, aby zminimalizować
przepływ papierowych dokumentów. RównieŜ dokumentacja dołączana do oprogramowania
lub sprzętu komputerowego (np. pliki pomocy, samouczki, tutoriale, instrukcje obsługi) przenoszona
jest poprzez pliki PDF.
+ Pliki PDF często klasyfikowane są jako pliki graficzne, ze względu na specyficzne
właściwości: na kaŜdym komputerze dokument będzie wyglądał tak samo. Zachowane
są czcionki, obrazy oraz układ dokumentu.
+ Pliki mają stosunkowo niewielkie rozmiary.
+ Obsługują hiperłącza, dzięki którym nawigacja jest bardzo ułatwiona.
+ E-ksiąŜki wykorzystują ten format, ze względu na moŜliwość tworzenia interaktywnego spisu
treści oraz bardzo utrudnioną modyfikację treści dokumentu.
+ Są bardzo "przyjazne" w drukowaniu.
+ Pozwalają na nanoszenie komentarzy.
+ Istnieje moŜliwość tworzenia interaktywnych formularzy.
+ Dzięki moŜliwości szyfrowania są to bezpieczne pliki. Jest to standardowy format
dla bezpiecznej i niezawodnej dystrybucji elektronicznych dokumentów oraz formularzy. MoŜna
ustalić specjalne prawa dostępu do plików PDF, ustalić hasło dla pliku albo podpisać plik
za pomocą podpisu cyfrowego.
+ Istnieje wiele darmowych aplikacji do konwersji plików tekstowych do formatu PDF.
+ Przeglądarka Aprobat Leader ma wbudowanych wiele funkcji ułatwiających wyszukiwanie
dokumentów (biblioteczka), a takŜe istnieje moŜliwość czytania treści dokumentu
przez przeglądarkę (niestety tylko w języku angielskim).
- Utworzony plik PDF nie moŜe być edytowany bez posiadania odpowiednich uprawnień
oraz odpowiedniego oprogramowania.
Po co mi skaner?
1. Archiwizacja dokumentów (szafy pełne papierów moŜna zamienić na pudełko płyt CD lub DVD!).
2. Archiwizacja fotografii (album rodzinny zapisany na dysku komputera) .
3. Naprawa starych dokumentów. Retusz fotografii. Wczytywanie dokumentów tekstowych.
4. KolaŜe, fotomontaŜe. Kalendarze, zaproszenia, kartki z Ŝyczeniami, biuletyny, gazetki
ścienne. Rodzinne strony WWW. Szczegóły obróbki zdj ęć na zaj ę ciach z grafiki.
5. Tłumaczenie tekstów. Dzięki funkcji OCR moŜna wczytać tekst w jednym języku, a następnie
uŜywając odpowiednich programów tłumaczących przeczytać go w innym języku.
6. Wielofunkcyjne narzędzie biurowe:
o Kopiarka, o ile do komputera jest równieŜ podłączona drukarka.
o Fax, o ile komputer łączy się z siecią Internet przy uŜyciu modemu.
7. MoŜliwość skanowania kliszy fotograficznych.
Oprogramowanie dostępne do obsługo skanerów jest bardzo proste w obsłudze.
Dodatkowe programy graficzne pozwalają na szybką korekcję skanowanych obrazów:
Po zeskanowaniu czystego tekstu moŜna wydrukować go w bardziej atrakcyjnej formie, dodając
zdjęcia, obrazki, kolorując fragmenty tekstu, uŜywając dekoracyjnych czcionek.
mgr inŜ. Alicja Pituła-Wilczyńska
II. OCR OPTYCZNE ROZPOZNAWANIE TEKSTÓW .
Jak działa skaner?
Skaner zamienia obraz drukowany na postać cyfrową.
Oczy ludzkie: widzimy kolory dzięki falom światła o róŜnych częstotliwościach i ampitudach,
odbijanym od poszczególnych obiektów. Fala światła to DANE ANALOGOWE.
Skaner umoŜliwia zmianę danych analogowych na postać CYFROWĄ.
10162135.007.png
 
Budowa skanera
CCD - charged-coupled device = układ ze sprz ęŜ eniem ładunkowym - podstawowa część skanera
- układ czujników (światłoczułych komórek), które linie po linii są przesuwane wzdłuŜ strony
i konwertują poziomy światła odbijane od skanowanej powierzchni na dane cyfrowe. Układ CCD
przesyła dane do przetwornika analogowo-cyfrowego - tu następuje konwersja ładunków
elektrycznych na dane cyfrowe.
CIS - contact image sensor - układ krzemowy, który spełnia funkcje CCD oraz przetwornika A-C,
jednak rezultaty są gorszej jakości. Skanery oparte o technologię CIS oferują niŜsza rozdzielczość.
Na jakość skanera wpływa liczba i jakość fotosensorów. Określana jest mianem: rozdzielczo ś ci
optycznej skanera . Mówi ona ile punktów zmieści się na jeden cal skanowanego obrazu.
Rozdzielczości skanerów podawana jest w jednostce: DPI - dot-per-inch = punktów-na-cal
Starsze skanery miały rozdzielczo ść do 300dpi. Obecnie standardem jest ju Ŝ 1200-2400dpi.
Wartość 300dpi oznacza, Ŝe na kaŜdy cal zeskanowanego obrazu przypada 300 próbek koloru.
Cz ę sto w materiałach reklamowych podawana jest równie Ŝ rozdzielczo ść pionowa i pozioma . Rozdzielczo ść
pionowa ma 2 razy wi ę ksz ą warto ść , poniewa Ŝ mo Ŝ na przesun ąć o połow ę odległo ść pomi ę dzy dwoma rz ę dami
skanowania. Rozdzielczo ść interpolowana informuje, Ŝ e pomi ę dzy ka Ŝ dy kolorowy punkt mo Ŝ na wstawi ć inny
z u ś rednion ą warto ś ci ą koloru. Skaner maj ą cy rzeczywist ą rozdzielczo ść 600dpi mo Ŝ e by ć tym sposobem
reklamowany jako 9600x9600dpi.
Skanujemy.
1. Układamy dokument skanowaną stroną na szklanej powierzchni.
2. Domykamy pokrywę skanera - ma ona dociskać dokument do szklanej powierzchni
skanującej.
3. Wciskany przycisk skanowania.
4. WzdłuŜ skanowanego dokumentu przesuwa się specjalna lampa. Światło odbija się
od powierzchni dokumentu i trafia do zestawu luster.
5. Lustra przekazują fale świetlne do soczewek.
6. Soczewka wysyła dane do CCD.
7. CCD rejestruje ładunki analogowe i kieruje je do przetwornika A-C.
8. Konwerter A-C zamienia napięcie na dane cyfrowe.
9. Dokument zapisywany jest w pamięci komputera.
Jaki duŜy będzie plik?
Skanujemy zdjęcie o wymiarach 10x12,5cm (4x5 cali) z rozdzielczością 150dpi.
(4''x150dpi) x (5''x150dpi) = 450 000 pikseli
Skanując zdjęcie w kolorze musimy uwzględnić kanały kolorów RGB:
450 000 pikseli x 3 bajty przestrzeni dyskowej = 1 350 000 bajtów = 1,35mb
Dlaczego zeskanowany obraz wydaje się taki duŜy na monitorze?
Związane jest to z moŜliwościami monitora. Na ekranie moŜna wyświetlić 72-75 punktów na cal,
dlatego obraz skanowany z rozdzielczością 150dpi będzie wydawał się 2 razy większy
niŜ na papierze.
Drukowanie
Po wydrukowaniu obrazek znowu będzie takiej samej wielkości jak przed skanowaniem,
poniewaŜ drukarka atramentowa bez problemu poradzi sobie z rozdzielczością 150dpi.
Bity.
Ilość bitów przekłada się na jakość skanowanego obrazu. Im więcej bitów tym większa dokładność.
Co to jest bit?
Podstawowa jednostka miary binarnej, reprezentowana przez 0 lub 1.
O co chodzi?
24-bitowy skaner pobiera 8 bitów z kaŜdego z 3 kanałów koloru (RGB).
Skanery 30-bitowe korzystają z ę bi koloru rzędu 10 bitów, a 36-bitowe rzędu 12 bitów.
Dzięki temu prawdopodobieństwo utraty danych zmniejsza się, obraz będzie wiernej
przekazany.
mgr inŜ. Alicja Pituła-Wilczyńska
10162135.008.png 10162135.001.png
Co to jest piksel?
KaŜdy obraz rastrowy (zdjęcia) składa się z siatki kolorowych punkcików – to właśnie są
piksele.
RGB – red-green-blue.
Kolory tworzone są przy uŜyciu 3 podstawowych barw: czerwonej, zielonej i niebieskiej.
Z ich połączenia powstają wszystkie pozostałe kolory. Są to "współrzędne" kolorów.
2 8 =256 - kaŜda współrzędna moŜe przyjmować wartość z zakresu 0-255.
Z tych trzech kolorów moŜe powstać ok. 16mln barw. NaleŜy pamiętać, Ŝe drukarka nie potrafi
ich wszystkich wydrukować. Tylko na monitorze moŜliwe jest wyświetlenie ich wszystkich.
Więcej na zajęciach z grafiki.
Do codziennych zastosowań, takich jak skanowanie i drukowanie zdjęć rozdzielczość 150-300dpi jest
wystarczająca.
Kiedy warto zwiększyć rozdzielczość skanowania?
Podczas skanowania obrazów czarno-białych.
Kiedy chcemy skanować z większą precyzją powiększając oryginalny dokument.
Planując zaawansowaną edycję skanowanej grafiki.
Je ś li naszym celem jest pozyskanie tekstu, najlepiej b ę dzie u Ŝ y ć rozdzielczo ś ci 300dpi oraz 2-
bitowej gł ę bi kolorów (czarno-biały obraz).
OCR - optyczne rozpoznawanie tekstu.
Programy OCR umoŜliwiają zamianę tekstu drukowanego na dokument tekstowy elektroniczny,
który moŜna edytować w dowolnym edytorze tekstowym.
Jak to się robi?
Proces rozpoznawania pisma jest podzielony na 4 etapy: wczytanie dokumentu do pamięci
komputera, podział dokumentu na obszary (zony) i rozpoznanie tekstu w obszarach (zonach),
korekcja tekstu oraz eksport odczytanych danych do zewnętrznych systemów.
1. Skanujemy obraz zawierający tekst. Skaner tworzy nam "zdjęcie" tekstu.
2. W programie do OCR otwieramy obrazek z zeskanowanym tekstem. MoŜe to być plik
graficzny, plik PDF lub obraz pobrany bezpośrednio ze skanera.
3. Wybieramy funkcję ROZPOZNAJ.
4. Eksportujemy rozpoznany tekst do wybranego programu (najczęściej edytora
tekstowego).
5. Zapisujemy nasz dokument na dysku komputera.
Współczesne programy OCR pozwalają na sprawdzanie poprawności pisowni w dokumencie,
szybką edycję tekstu, zmianę kroju czcionki, oznaczenie części rozpoznanej strony jako grafikę
i traktowanie jej jak obrazek umieszczony pomiędzy linijkami tekstu.
III. W YSZUKIWANIE I NFORMACJI TEKSTOWEJ ORAZ OPROGRAMOWANIA .
Mój komputer.
Podstawową zasadą zarządzania informacją tekstową na własnym komputerze jest zapisywanie
plików w sposób logiczny i łatwy do odszukania. Systemy operacyjne umoŜliwiają nam to dzięki
strukturze zapisywania pików w folderach, moŜliwości tworzenia opisów plików oraz
rozszerzonym nazwom plików, pozwalającym na dokładne nazwanie pliku.
Jeśli mimo wszystko „zgubimy” interesujące nas pliki naleŜy skorzystać z funkcji WYSZUKAJ.
W Microsoft Windows znajduje się ona w menu Start oraz jest dostępna w oknie Eksploratora
(ikona lupki). Po uruchomieniu funkcji mamy moŜliwość podania kryteriów wyszukiwania, dzięki
którym system odszuka interesujący nas plik.
Internet.
W celu wyszukania interesującej nas informacji musimy skorzystać z wyszukiwarki.
Wyszukiwarka to specjalny program, który przegląda za nas strony dostępne w wirtualnym
świecie.
mgr inŜ. Alicja Pituła-Wilczyńska
10162135.002.png
Oprogramowanie z sieci.
Szukając oprogramowania w Internecie naleŜy pamiętać, Ŝe nie wszystkie dostępne programy
moŜemy pobierać i uŜywać legalnie! Legalne programy posiadają licencje typu freeware lub open
source (oprogramowanie całkowicie darmowe) albo shareware lub trialware (oprogramowanie
do testów – moŜemy go uŜywać przez pewien wyznaczony okres czasu, po którym musimy
program usunąć z dysku lub wykupić na niego licencję). Istnieją równieŜ programy w wersji
demonstracyjnej (demo), moŜna ich uŜywać bezpłatnie, jednak mają one zablokowane niektóre
funkcje.
Wiele darmowych programów moŜna znaleźć przeglądając strony internetowe firm produkujących
oprogramowanie komputerowe. Takie firmy udostępniają bezpłatnie wersie próbne nowych
programów, a czasem równieŜ moŜna za darmo ściągnąć starsze wersje programów
komercyjnych. Zaletą korzystania ze stron producentów jest pewność, Ŝe ściągane programy są
wolne od wirusów i innych szkodliwych dla nas programów.
Alternatywą dla stron producentów są internetowe archiwa z darmowym oprogramowaniem. Są to
duŜe bazy programów. MoŜemy w nich znaleźć opis funkcji danego programu. Archiwa posiadają
wbudowane wyszukiwarki programów, mamy jednak równieŜ moŜliwość przeglądania
kontekstowego całej bazy.
Przykładami mogą być tutaj serwisy: www.thefreesite.com, www.zdnet.com,
www.download.com , www.tucows.com , www.dobreprogramy.pl , www.download.com , ...
IV. A RCHIWIZACJA PLIKÓW .
Kompresja danych.
Wadą dysków komputerowych jest to, Ŝe nie rosną w miarę naszych potrzeb. Dlatego właśnie
wymyślono programy pakujące, które zmniejszają rozmiar pliku na dysku komputera.
Kompresja danych polega na zmianie sposobu zapisu informacji w taki sposób, aby zmniejszyć
objętość zbioru, nie zmieniając przenoszonych informacji. Innymi słowy chodzi o wyraŜenie tego
samego zestawu informacji, lecz za pomocą mniejszej liczby bitów. Kompresja moŜe być
bezstratna (z postaci skompresowanej moŜna odzyskać identyczną postać pierwotną) oraz stratna
(w której pełne odzyskanie danych jest niemoŜliwe, jednak główne właściwości które nas interesują zostają
zachowane – dotyczy to głównie muzyki oraz grafiki) .
Skompresowane pliki mają najczęściej rozszerzenie ZIP lub RAR, jednak mogą się zdarzyć
równieŜ inne formaty, np. ACE. Format pliku zaleŜy od rodzaju uŜytej kompresji oraz programu
archiwizującego.
Pakery.
Pliki, nie tylko tekstowe, moŜna spakować uŜywając jednego z wielu dostępnych na rynku
programów. Aby spakować plik wystarczy uruchomić odpowiedni program i w nim wskazać plik,
który chcemy skompresować. MoŜemy wybrać stopień kompresji, czyli jak bardzo ma
się zmniejszyć nasz plik oraz czy chcemy archiwum (czyli spakowany plik) zabezpieczyć hasłem.
MoŜemy „schować” więcej niŜ jeden plik do archiwum.
Zaletą tworzenia archiwów jest moŜliwość podzielenia pliku lub grupy plików na mniejsze porcje,
tak aby moŜna było przenieść jeden duŜy plik na kilku dyskietkach. Taki podział plików
jest równieŜ przydatny, kiedy chcemy wysłać plik pocztą internetową, a jego rozmiar nie pozwala
nam na zrobienie tego bez spakowania i podziału pliku na mniejsze części.
Do najpopularniejszych naleŜą: 7-Zip , PowerArchiver , UltimateZip , ZipGenius , QuickZip , ArchiveXP ,
WinZIP
WinZIP, WinRAR
WinRAR, ArchiveExpert, FilZip, PicoZip, PowerZip, ZippHO, ZipWave, EnZip, ZipCentral.
mgr inŜ. Alicja Pituła-Wilczyńska
MoŜemy skorzystać z prostego wyszukiwanie, wpisując po prostu słowa-klucze do okna
wyszukiwarki, lub wybrać funkcję zaawansowanego przeszukiwania sieci. W przypadku
wyszukiwania zaawansowanego musimy zdefiniować odpowiednie kryteria.
Najpopularniejszą wyszukiwarką jest http://www.google.pl. Google posiada równieŜ moduł
przeszukiwania sieci pod kątem określonych typów plików lub określonej dziedziny
(np. przeszukuje wyłącznie portale edukacyjne). MoŜemy równieŜ zdefiniować w jakim języku
mają być szukane informacje.
WinZIP
WinRAR
10162135.003.png 10162135.004.png 10162135.005.png
Zgłoś jeśli naruszono regulamin