Świdziński M - Lingwistyka korpusowa w Polsce. Źźródła, stan, perspektywy.pdf
(
575 KB
)
Pobierz
Microsoft Word - ling_kor.doc
„LingVaria” Nr 1, 2006
Lingwistyka korpusowa w Polsce –
Ņ
ródła, stan, perspektywy
Marek
ĺ
widzi
ı
ski
Instytut J
ħ
zyka Polskiego
Uniwersytet Warszawski
Wst
ħ
p
Niniejszy szkic, adresowany przede wszystkim do młodego pokolenia lingwistów-
polonistów, przedstawia wizj
ħ
j
ħ
zykoznawstwa XXI stulecia. Jest to mianowicie lingwistyka
korpusowa. Rozwija si
ħ
ona ju
Ň
od jakiego
Ļ
czasu; wynikła w sposób naturalny z do
Ļę
szcz
ħ
-
Ļ
liwego splotu ró
Ň
norodnych okoliczno
Ļ
ci; zdominowała inne nurty i odmiany j
ħ
zykoznaw-
stwa nieodwracalnie. Nie mo
Ň
na by
ę
dzi
Ļ
j
ħ
zykoznawc
Ģ
i nie otrze
ę
si
ħ
o ni
Ģ
cho
ę
by jako
u
Ň
ytkownik narz
ħ
dzi. A skoro tak, to warto wej
Ļę
w ten
Ļ
wiat z wyboru, zada
ı
bowiem jest
moc i b
ħ
dzie ich coraz wi
ħ
cej. W
Ļ
wiecie jest na t
ħ
najnowsz
Ģ
lingwistyk
ħ
, nie na dowoln
Ģ
,
mnóstwo pieni
ħ
dzy – i zajmuj
Ģ
si
ħ
ni
Ģ
całe rzesze; to dowodzi,
Ň
e co
Ļ
jest na rzeczy,
Ň
e cze-
mu
Ļ
to słu
Ň
y... Niestety, nie w naszej ojczy
Ņ
nie.
In
Ň
ynieri
ħ
korpusow
Ģ
przyniosła najmłodsza z długiej serii XX-wiecznych rewolucji –
rewolucja informatyczna. Ale przed ni
Ģ
zdarzyły si
ħ
dwie inne rewolucje intelektualne. Marsz
przez te rewolucje stał si
ħ
udziałem pokole
ı
j
ħ
zykoznawców. Drog
ħ
t
ħ
przeszedłem i ja.
Rewolucja nr 1: strukturalizm
J
ħ
zykoznawstwo jako samodzielna dyscyplina liczy sobie niewiele ponad sto lat. Cho
ę
w minionych tysi
Ģ
cleciach znale
Ņę
mo
Ň
na wielu wa
Ň
nych prekursorów, od Paniniego i Ary-
stotelesa poprzez gramatyków staro
Ň
ytnego Rzymu po Arnaulda i Lancelota, twórców
Gra-
matyki Port-Royal
, to lingwistyka teoretyczna zrodziła si
ħ
u schyłku XIX stulecia.
Pierwsza rewolucja jest dziełem Ferdynanda de Saussure’a, j
ħ
zykoznawcy szwajcar-
skiego, profesora uniwersytetów w Genewie i Pary
Ň
u. Jemu, jego współpracownikom i wy-
chowankom (którzy zreszt
Ģ
sami spisali i wydali wykłady mistrza), a tak
Ň
e grupie wybitnych
nast
ħ
pców zawdzi
ħ
czamy sformułowanie koncepcji j
ħ
zyka naturalnego jako systemu semio-
tycznego: to dwuklasowy system znaków słu
ŇĢ
cy okre
Ļ
lonej populacji do komunikacji uni-
wersalnej. Lingwistyka dostała aparat, który jest dzi
Ļ
oczywisto
Ļ
ci
Ģ
: (a) synchronia przede
wszystkim, (b) abstrakcyjny system (
langue
) i konkretny tekst (
parole
), (c) znak – obiekt o
dwóch twarzach: ma kształt i funkcj
ħ
, (d) opozycja – ró
Ň
nica kształtu obci
ĢŇ
ona funkcjonal-
nie, (e) paradygmatyka i syntagmatyka, (f) słownik – zbiór znaków prostych, gramatyka –
zbiór instrukcji syntezy i rozbioru wyra
Ň
e
ı
, (g) inwarianty i warianty. Teoria de Saussure’a
dotarła do Polski z gór
Ģ
pół wieku od jej powstania – przekład polski jego wykładów ukazał
si
ħ
w roku 1961 (Saussure (1961)). Koryfeuszy ówczesnego j
ħ
zykoznawstwa w Polsce nie
zainteresowała.
Strukturalizm, który wyrósł z idei de Saussure’a, wyzwolił j
ħ
zykoznawstwo – nauk
ħ
empiryczn
Ģ
– z oków humanistycznej filologii. Filolodzy zajmowali si
ħ
przez stulecia teksta-
mi (czy kawałkami tekstów) i pochodzeniem; strukturalizm podj
Ģ
ł problem budowy i funkcji
wyra
Ň
e
ı
. Strukturalny opis pewnego obiektu przyrodniczego jako pary <słownik, gramatyka>
daje model rodzimego u
Ň
ytkownika j
ħ
zyka; elementy tej pary to składniki kompetencji j
ħ
zy-
kowej. Doktryna strukturalna opanowała
Ļ
wiat lingwistyki pierwszej połowy zeszłego stule-
cia, a my
Ļ
lenie systemowe, rzecz ciekawa, promieniowało na inne działy humanistyki.
Nie miejsce tu na wykład ró
Ň
nych szkół europejskiego j
ħ
zykoznawstwa strukturalnego.
Trzeba wszak
Ň
e wspomnie
ę
o strukturalizmie ameryka
ı
skim, czyli dystrybucjonizmie, od
niego bowiem do
NLP
(
Natural Language Processing
) tylko krok. Dystrybucjoni
Ļ
ci to pierw-
1
1.
2.
si teoretycy, którzy budowali korpusy – zbiory wyra
Ň
e
ı
traktowane jako reprezentuj
Ģ
ce dany
j
ħ
zyk naturalny. Od nich pochodzi inne ni
Ň
nasze europejskie rozumienie j
ħ
zyka naturalnego.
Jest nim zbiór zda
ı
poprawnych i tylko takich. Opis (czy model) danego j
ħ
zyka to recepta na
wyra
Ň
enia tego j
ħ
zyka.
Strukturali
Ļ
ci, zapewne jako pierwsi w historii lingwistyki, podj
ħ
li si
ħ
sporz
Ģ
dzania wy-
czerpuj
Ģ
cych opisów ró
Ň
nych j
ħ
zyków naturalnych, opisów
całego
j
ħ
zyka. Za przykład niech
posłu
Ň
y Ottona Jespersena monumentalna gramatyka angielska (Jespersen 1909-1949). To,
Ň
e
nowoczesna lingwistyka rozwin
ħ
ła si
ħ
najowocniej w kr
ħ
gu anglosaskim, jest pewnie zasług
Ģ
Jespersena.
Warsztat strukturalizmu to pierwszy składnik kompetencji współczesnego j
ħ
zykoznaw-
cy.
3. Rewolucja nr 2: generatywizm i lingwistyka formalna
Drug
Ģ
rewolucj
ħ
potrafimy dokładnie datowa
ę
. W roku 1957 ukazały si
ħ
w wydawnic-
twie Moutona
Struktury składniowe
Noama Chomsky’ego (1957). Ów „przewrót kopernika
ı
-
ski” polega
ę
miał na odrzuceniu tradycji strukturalistycznej. Chomsky uwa
Ň
ał,
Ň
e struktura-
lizm nie ujawnia tego,
Ň
e kompetencja j
ħ
zykowa jest produktywna;
Ň
e, innymi słowy, u
Ň
yt-
kownik j
ħ
zyka potrafi interpretowa
ę
wyra
Ň
enia, których nigdy nie słyszał, i nowe wyra
Ň
enia
produkowa
ę
. Ale Chomsky’ego krytyka strukturalizmu (niezbyt zreszt
Ģ
sprawiedliwa) dotyka
co najwy
Ň
ej dystrybucjonizmu, i to wcale nie jego litery. Kamieniem obrazy jest dla Chom-
sky’ego ograniczono
Ļę
korpusów, którymi posiłkowali si
ħ
dystrybucjoni
Ļ
ci. Dla nich korpus
był
Ņ
ródłem danych empirycznych. Poniewa
Ň
podejmowali trud opisywania ró
Ň
nych j
ħ
zyków
dot
Ģ
d nie opisywanych, w szczególno
Ļ
ci j
ħ
zyków Indian, którzy wymierali, korpusy z natury
rzeczy nie mogły by
ę
du
Ň
e. Wielkich zreszt
Ģ
nie dałoby si
ħ
obj
Ģę
ogl
Ģ
dem.
Chomsky, krytyk dystrybucjonizmu, korzysta jednak szeroko z tamtej aparatury poj
ħ
-
ciowej. Przede wszystkim, id
Ģ
c
Ļ
ladem dystrybucjonistów, ujmuje j
ħ
zyk naturalny teorio-
mnogo
Ļ
ciowo: to zbiór wszystkich mo
Ň
liwych zda
ı
, zbiór niesko
ı
czony. Opis j
ħ
zyka, a wi
ħ
c
jego gramatyka, jest tego zbioru definicj
Ģ
. Definicj
ħ
tak
Ģ
nazywamy gramatyk
Ģ
formaln
Ģ
.
Słownik jako zbiór pewnych składników prostych nale
Ň
y do gramatyki.
Ju
Ň
od półwiecza Chomsky nosi szat
ħ
guru współczesnej lingwistyki. Z gramatyki gene-
ratywno-transformacyjnej, której ide
ħ
wyło
Ň
ył w
Stukturach składniowych
, wyrosły kolejne
jej mutacje – rozszerzona teoria standardowa (EST), wprowadzona w
Aspektach teorii składni
Chomsky’ego (1966), a tak
Ň
e teoria rz
Ģ
du i wi
Ģ
zania (GB; Haegemann (1992)) oraz minima-
lizm; te dwie ostatnie – z nieistotn
Ģ
dla nas tutaj filozoficzn
Ģ
obudow
Ģ
Gramatyki Uniwersal-
nej. Zrodziły si
ħ
te
Ň
w ci
Ģ
gu dziesi
ħ
cioleci inne teorie, znacznie lepiej dopracowane formal-
nie, zwłaszcza HPSG (Pollard i Sag (1994)). W ramach tych aparatów powstała i powstaje
gigantyczna literatura na temat najrozmaitszych j
ħ
zyków, od staroislandzkiego po warlpiri.
Mo
Ň
na powiedzie
ę
bez przesady,
Ň
e du
Ň
a cz
ħĻę
populacji lingwistów na
Ļ
wiecie działa w kr
ħ
-
gu generatywizmu chomskia
ı
skiego. Nie dotyczy to, niestety, Polski, w której ziemi
ħ
t
ħ
uprawiaj
Ģ
niemal wył
Ģ
cznie angli
Ļ
ci. Opisuj
Ģ
oni zreszt
Ģ
głównie polszczyzn
ħ
; obszerny ze-
staw odesła
ı
do publikacji polskich generatywistów znale
Ņę
mo
Ň
na na przykład w tomie stu-
diów po
Ļ
wi
ħ
conych HPSG (Przepiórkowski i in. (2002)). Znamienne,
Ň
e polski przekład
Aspektów
Chomsky’ego (1982) przeszedł bez echa. Dopiero ostatnio pojawiło si
ħ
popularne
kompendium generatywizmu (Mecner (2004)). Generatywizm nie stworzył wszak
Ň
e wielkich
syntez, a wi
ħ
c wyczerpuj
Ģ
cych opisów poszczególnych j
ħ
zyków; cho
ę
by tych najwa
Ň
niej-
szych.
Dobra znajomo
Ļę
narz
ħ
dzi generatywizmu to drugi składnik kompetencji współczesne-
go j
ħ
zykoznawcy.
2
Rewolucja nr 3: lingwistyka informatyczna
O ile dwie poprzednie rewolucje wynikły, by tak rzec, w toku normalnego rozwoju my-
Ļ
lowego pewnej dyscypliny, rewolucja ostatnia przyszła z zewn
Ģ
trz, i to bardzo niedawno.
Komputery, jeszcze w połowie ubiegłego wieku pracuj
Ģ
ce w Pentagonie, agencjach kosmicz-
nych czy o
Ļ
rodkach obliczeniowych, trafiły pod strzechy, aby sta
ę
si
ħ
standardowym urz
Ģ
-
dzeniem gospodarstwa domowego. Co wi
ħ
cej, w ci
Ģ
gu parunastu lat wymarł pewien fach:
zawód zecera. Skład komputerowy to wyrok
Ļ
mierci dla drukarstwa Gutenberga.
I jeszcze jeden zbieg okoliczno
Ļ
ci. Oto w latach 1970. rozpocz
ħ
ła si
ħ
współpraca mi
ħ
-
dzy grup
Ģ
informatyków z Wydziału Matematyki Uniwersytetu Warszawskiego i grup
Ģ
j
ħ
zy-
koznawców Wydziału Polonistyki. Do tej kooperacji obie strony były wtedy dobrze przygo-
towane, podobnie jak pó
Ņ
niej – do podj
ħ
cia zaawansowanych prac w zakresie lingwistyki
informatycznej. Ni
Ň
ej b
ħ
dzie mowa o niektórych przedsi
ħ
wzi
ħ
ciach, które wyrosły z owego
zbli
Ň
enia dwóch
Ļ
rodowisk. Poka
Ňħ
tu w szczególno
Ļ
ci prace powstałe w
Ļ
rodowisku war-
szawskim, zwłaszcza w Zakładzie J
ħ
zykoznawstwa Komputerowego, którym kieruj
ħ
. Skupie-
nie si
ħ
tutaj na nich nie ma oznacza
ę
,
Ň
e nigdzie indziej nie działo si
ħ
i nie dzieje nic, co dla
dyscypliny wa
Ň
ne.
Trzy wa
Ň
ne czynniki – eliminacja tradycyjnych technik wydawniczych, błyskawiczny
rozwój pami
ħ
ci masowych i, ostatnio, eksplozja internetu – dały w efekcie dost
ħ
p do gigan-
tycznych zbiorów tekstowych. R
ħ
czna ich obsługa jest absolutnie niemo
Ň
liwa. Nie chodzi
przy tym o materiał empiryczny dla naukowców. Teksty s
Ģ
w zasi
ħ
gu r
ħ
ki szarego obywatela.
Monstrualne zasoby informacji na serwerach internetowych maj
Ģ
przede wszystkim posta
ę
zbiorów tekstowych. Narz
ħ
dzia operowania takimi zbiorami to wyzwanie nie tylko dla infor-
matyka; tak
Ň
e (a nawet przede wszystkim) dla lingwisty.
Dost
ħ
p do zawarto
Ļ
ci no
Ļ
nika umo
Ň
liwiaj
Ģ
specjalne aplikacje – ró
Ň
nego rodzaju wy-
szukiwarki. Kiedy piszemy tekst w procesorze komercyjnym, pozwala nam on lokalizowa
ę
interesuj
Ģ
ce nas napisy: obiekty unilateralne. Wystarczy wpisanie odpowiedniego ci
Ģ
gu zna-
ków, aby dotrze
ę
do wszystkich tej sekwencji wyst
Ģ
pie
ı
. Szukanie jest trywialne, dotyczy
bowiem kształtów:
Kiedy jednak korzystamy z encyklopedii czy słownika elektronicznego, nie chodzi nam
zwykle o dany napis. Oto wynik poszukiwania jednostki
kot
w
Komputerowym Słowniku J
ħ
-
zyka Polskiego
(KSJP):
3
4.
Szukali
Ļ
my tutaj jakiej
Ļ
jednostki bilateralnej – zapewne leksemu. KSJP ujawnił nam artyku-
ły hasłowe, w których u
Ň
yto formy leksemu
KOT
. Co prawda, jedno z pi
ħ
ciu znalezisk odrzu-
cimy, bo nie chodziło nam raczej o leksem
KOTA
... Otó
Ň
wi
ħ
kszo
Ļę
wyszukiwa
ı
daje rezultaty
niechciane; taki jest po prostu j
ħ
zyk naturalny, który roi si
ħ
od neutralizacji. Ambitniejsze
narz
ħ
dzia kwerend tekstowych słu
ŇĢ
poszukiwaniom nie „po kształtach”, jak si
ħ
mawia
w
Ň
argonie, tylko po jakich
Ļ
znacznikach. Wprowadzenie do tekstu znaczników (tagów), któ-
re pomog
Ģ
w ujednoznacznieniach, jest zadaniem lingwistycznym.
ĺ
wiadomo
Ļę
istnienia narz
ħ
dzi obsługi tekstów to trzeci komponent kompetencji współ-
czesnego j
ħ
zykoznawcy.
5. Wyzwanie homonimii
Zbiór tekstów przygotowany specjalnie do jakiego
Ļ
celu nazywamy korpusem. Korpu-
sami posługuj
Ģ
si
ħ
j
ħ
zykoznawcy, przede wszystkim leksykografowie. Korpusy lingwistyczne
bywaj
Ģ
znakowane, czyli wzbogacone przynajmniej o informacj
ħ
gramatyczn
Ģ
; docelowo –
pewnie pragmatyczn
Ģ
i semantyczn
Ģ
.
Polszczyzna reprezentuje klas
ħ
j
ħ
zyków wysoce fleksyjnych. Cech
Ģ
znamienn
Ģ
takich
j
ħ
zyków jest homonimiczno
Ļę
słów. Ostro
Ň
ny szacunek poucza,
Ň
e w tek
Ļ
cie polskim 40 słów
na sto to homonimy, czyli słowa b
ħ
d
Ģ
ce kształtami wi
ħ
cej ni
Ň
jednej jednostki systemowej.
Fundamentalnym zadaniem lingwistyki informatycznej jest zatem rozwi
Ģ
zywanie homonimii:
słabe – przypisanie słowom analizowanego tekstu wszystkich interpretacji; mocne – znalezie-
nie interpretacji wła
Ļ
ciwej (por.
ĺ
widzi
ı
ski, Derwojedowa i Rudolf (2003)).
Warto zaznaczy
ę
,
Ň
e jedno z pierwszych w
Ļ
wiecie przedsi
ħ
wzi
ħę
lingwistyki korpuso-
wej miało miejsce w Polsce i polszczyzny dotyczyło. W latach 1967-1971 powstał w Uniwer-
sytecie Warszawskim półmilionowy zrównowa
Ň
ony korpus znakowany, który posłu
Ň
ył za
baz
ħ
empiryczn
Ģ
słownika frekwencyjnego j
ħ
zyka polskiego. Znakowania dla ujednoznacz-
nienia słów dokonywano r
ħ
cznie, ale listy frekwencyjne zostały sporz
Ģ
dzone komputerowo.
Podstawy gramatyczne projektu były tak solidne,
Ň
e zachowały aktualno
Ļę
po dzi
Ļ
dzie
ı
.
Słownik ukazał si
ħ
najpierw w postaci pi
ħ
ciu tomów (w jedenastu woluminach) pod tytułem
Słownictwo współczesnego j
ħ
zyka polskiego. Listy frekwencyjne
(S-LF). Tomy te wyszły po-
tem w postaci zbiorczej pod redakcj
Ģ
Zygmunta Saloniego jako
Słownik frekwencyjny polsz-
czyzny współczesnej
(SFPW). SFPW jest słownikiem form wyrazowych popakowanych
w leksemy. Twórcy korpusu przypisywali r
ħ
cznie znaczniki słowom, które s
Ģ
homoformami
(Awramiuk (1999)). Nie jest to zatem znakowanie pełne. Ale pocz
Ģ
tek został uczyniony.
4
6. Analizatory i wyszukiwarki
Urz
Ģ
dzenie do automatycznego rozwi
Ģ
zywania homonimii to analizator morfologiczny.
Musi on opiera
ę
si
ħ
na rygorystycznym opisie gramatycznym danego j
ħ
zyka. Dorobek grama-
tyczny j
ħ
zykoznawstwa tradycyjnego, z gramatykami Doroszewskiego, Szobera czy Klemen-
siewicza na czele, nie spełniał oczywi
Ļ
cie warunków pełno
Ļ
ci i jawno
Ļ
ci. Polszczyzna docze-
kała si
ħ
jednak szcz
ħĻ
liwie zadowalaj
Ģ
cych opisów morfologicznych i składniowych – wy-
mie
ı
my prace Jana Tokarskiego (SJP Dor. z tzw. „notacj
Ģ
Tokarskiego”, Tokarski (1973) i
(1990)), Zygmunta Saloniego (1992), (2004), Saloniego i
ĺ
widzi
ı
skiego (2001), Włodzimie-
rza Gruszczy
ı
skiego (1989), Janusza Stanisława Bienia (1991), a tak
Ň
e, z innej szkoły, mor-
fologi
ħ
z
Gramatyki j
ħ
zyka polskiego PAN
(Gramatyka_PAN (1984)). Morfologi
ħ
mo
Ň
na ju
Ň
było zaimplementowa
ę
.
Istnieje kilka analizatorów morfologicznych. U schyłku lat 1980. powstał analizator Ro-
berta Wołosza, znany dzi
Ļ
pod nazw
Ģ
PoMoR
(por. Wołosz (2005)), analizator
SAM
Krzysz-
tofa Szafrana (1994),
Morfeusz
Marcina Woli
ı
skiego (2004a), w ko
ı
cu –
AMOR
Joanny
Rabiega-Wi
Ļ
niewskiej i Michała Rudolfa (2003). Analizatory te przypisuj
Ģ
słowom zbiory
interpretacji gramatycznych.
Analizator dostaje słowo lub list
ħ
słów do interpretacji.
AMOR
na przykład zinterpretu-
je słowo
jutro
jako nale
ŇĢ
ce do leksemu przysłówkowego
JUTRO
1
lub rzeczownikowego
JU-
TRO
2
, czyli dokona rozpoznania cz
ħĻ
ci mowy (
PoS-tagging
) oraz rozpoznania leksemu, do
którego forma wyrazowa o takim kształcie nale
Ň
y (
lemmatization
); słowo
szkoły
– jako repre-
zentuj
Ģ
ce cztery formy wyrazowe: dopełniaczow
Ģ
w liczbie pojedynczej b
Ģ
d
Ņ
mianowniko-
w
Ģ
, biernikow
Ģ
albo wołaczow
Ģ
w mnogiej; słowo
czytali
– jako form
ħ
wyrazow
Ģ
czasownika
CZYTA
Ę
z pewnym opisem gramatycznym. Program, który zwraca analizowany tekst z odpo-
wiednimi znacznikami poprzypisywanymi wszystkim słowom, nazywany bywa tagerem (
ta-
gger
), a efektem pracy takiego programu jest tekst (czy korpus) znakowany. Na korpusie,
znakowanym lub nie, pracuj
Ģ
dopiero zaawansowane wyszukiwarki.
Ostatnio zako
ı
czyły si
ħ
dwa projekty naukowo-badawcze, których celem było ju
Ň
to
zbudowanie korpusu znakowanego, ju
Ň
to opracowanie narz
ħ
dzi do obsługi korpusu.
Pierwszy z nich realizowany był w Instytucie Podstaw Informatyki PAN pod kierun-
kiem Adama Przepiórkowskiego. W ramach projektu
KBN 7T11C 043 20
powstał w latach
2001-2004 100-milionowy anotowany korpus tekstów polskich (Korpus_IPI_PAN), który nie
ma ambicji bycia korpusem lingwistycznie reprezentatywnym, czyli na przykład zrównowa-
Ň
onym; powstała te
Ň
wyszukiwarka
Poliqarp
(por. Przepiórkowski (2004)).
Oto pokaz wyszukiwania:
5
Plik z chomika:
napomoc
Inne pliki z tego folderu:
Barthes R - Wstęp do analizy strukturalnej opowiadań.pdf
(19748 KB)
Abramowska J - Literatura-dramat-teatr.pdf
(3461 KB)
Barthes R - Teoria tekstu.pdf
(13365 KB)
Burke K - Tradycyjne zasady retoryki.pdf
(23776 KB)
Bartmiński J - Derywacja stylu.pdf
(4048 KB)
Inne foldery tego chomika:
_ Język a kultura. Tomy 1-16
_ Najsłynniejsze poematy XX wieku [wybór Stanisław Stanuch]
_ Polski
_ Polski. Dialekty, gwary, odmiany
_ Polski. Edytorstwo
Zgłoś jeśli
naruszono regulamin