Świdziński M - Lingwistyka korpusowa w Polsce. Źźródła, stan, perspektywy.pdf

(575 KB) Pobierz
Microsoft Word - ling_kor.doc
„LingVaria” Nr 1, 2006
Lingwistyka korpusowa w Polsce – Ņ ródła, stan, perspektywy
Marek ĺ widzi ı ski
Instytut J ħ zyka Polskiego
Uniwersytet Warszawski
Wst ħ p
Niniejszy szkic, adresowany przede wszystkim do młodego pokolenia lingwistów-
polonistów, przedstawia wizj ħ j ħ zykoznawstwa XXI stulecia. Jest to mianowicie lingwistyka
korpusowa. Rozwija si ħ ona ju Ň od jakiego Ļ czasu; wynikła w sposób naturalny z do Ļę szcz ħ -
Ļ liwego splotu ró Ň norodnych okoliczno Ļ ci; zdominowała inne nurty i odmiany j ħ zykoznaw-
stwa nieodwracalnie. Nie mo Ň na by ę dzi Ļ j ħ zykoznawc Ģ i nie otrze ę si ħ o ni Ģ cho ę by jako
u Ň ytkownik narz ħ dzi. A skoro tak, to warto wej Ļę w ten Ļ wiat z wyboru, zada ı bowiem jest
moc i b ħ dzie ich coraz wi ħ cej. W Ļ wiecie jest na t ħ najnowsz Ģ lingwistyk ħ , nie na dowoln Ģ ,
mnóstwo pieni ħ dzy – i zajmuj Ģ si ħ ni Ģ całe rzesze; to dowodzi, Ň e co Ļ jest na rzeczy, Ň e cze-
mu Ļ to słu Ň y... Niestety, nie w naszej ojczy Ņ nie.
In Ň ynieri ħ korpusow Ģ przyniosła najmłodsza z długiej serii XX-wiecznych rewolucji –
rewolucja informatyczna. Ale przed ni Ģ zdarzyły si ħ dwie inne rewolucje intelektualne. Marsz
przez te rewolucje stał si ħ udziałem pokole ı j ħ zykoznawców. Drog ħ t ħ przeszedłem i ja.
Rewolucja nr 1: strukturalizm
J ħ zykoznawstwo jako samodzielna dyscyplina liczy sobie niewiele ponad sto lat. Cho ę
w minionych tysi Ģ cleciach znale Ņę mo Ň na wielu wa Ň nych prekursorów, od Paniniego i Ary-
stotelesa poprzez gramatyków staro Ň ytnego Rzymu po Arnaulda i Lancelota, twórców Gra-
matyki Port-Royal , to lingwistyka teoretyczna zrodziła si ħ u schyłku XIX stulecia.
Pierwsza rewolucja jest dziełem Ferdynanda de Saussure’a, j ħ zykoznawcy szwajcar-
skiego, profesora uniwersytetów w Genewie i Pary Ň u. Jemu, jego współpracownikom i wy-
chowankom (którzy zreszt Ģ sami spisali i wydali wykłady mistrza), a tak Ň e grupie wybitnych
nast ħ pców zawdzi ħ czamy sformułowanie koncepcji j ħ zyka naturalnego jako systemu semio-
tycznego: to dwuklasowy system znaków słu ŇĢ cy okre Ļ lonej populacji do komunikacji uni-
wersalnej. Lingwistyka dostała aparat, który jest dzi Ļ oczywisto Ļ ci Ģ : (a) synchronia przede
wszystkim, (b) abstrakcyjny system ( langue ) i konkretny tekst ( parole ), (c) znak – obiekt o
dwóch twarzach: ma kształt i funkcj ħ , (d) opozycja – ró Ň nica kształtu obci ĢŇ ona funkcjonal-
nie, (e) paradygmatyka i syntagmatyka, (f) słownik – zbiór znaków prostych, gramatyka –
zbiór instrukcji syntezy i rozbioru wyra Ň e ı , (g) inwarianty i warianty. Teoria de Saussure’a
dotarła do Polski z gór Ģ pół wieku od jej powstania – przekład polski jego wykładów ukazał
si ħ w roku 1961 (Saussure (1961)). Koryfeuszy ówczesnego j ħ zykoznawstwa w Polsce nie
zainteresowała.
Strukturalizm, który wyrósł z idei de Saussure’a, wyzwolił j ħ zykoznawstwo – nauk ħ
empiryczn Ģ – z oków humanistycznej filologii. Filolodzy zajmowali si ħ przez stulecia teksta-
mi (czy kawałkami tekstów) i pochodzeniem; strukturalizm podj Ģ ł problem budowy i funkcji
wyra Ň e ı . Strukturalny opis pewnego obiektu przyrodniczego jako pary <słownik, gramatyka>
daje model rodzimego u Ň ytkownika j ħ zyka; elementy tej pary to składniki kompetencji j ħ zy-
kowej. Doktryna strukturalna opanowała Ļ wiat lingwistyki pierwszej połowy zeszłego stule-
cia, a my Ļ lenie systemowe, rzecz ciekawa, promieniowało na inne działy humanistyki.
Nie miejsce tu na wykład ró Ň nych szkół europejskiego j ħ zykoznawstwa strukturalnego.
Trzeba wszak Ň e wspomnie ę o strukturalizmie ameryka ı skim, czyli dystrybucjonizmie, od
niego bowiem do NLP ( Natural Language Processing ) tylko krok. Dystrybucjoni Ļ ci to pierw-
1
1.
2.
si teoretycy, którzy budowali korpusy – zbiory wyra Ň e ı traktowane jako reprezentuj Ģ ce dany
j ħ zyk naturalny. Od nich pochodzi inne ni Ň nasze europejskie rozumienie j ħ zyka naturalnego.
Jest nim zbiór zda ı poprawnych i tylko takich. Opis (czy model) danego j ħ zyka to recepta na
wyra Ň enia tego j ħ zyka.
Strukturali Ļ ci, zapewne jako pierwsi w historii lingwistyki, podj ħ li si ħ sporz Ģ dzania wy-
czerpuj Ģ cych opisów ró Ň nych j ħ zyków naturalnych, opisów całego j ħ zyka. Za przykład niech
posłu Ň y Ottona Jespersena monumentalna gramatyka angielska (Jespersen 1909-1949). To, Ň e
nowoczesna lingwistyka rozwin ħ ła si ħ najowocniej w kr ħ gu anglosaskim, jest pewnie zasług Ģ
Jespersena.
Warsztat strukturalizmu to pierwszy składnik kompetencji współczesnego j ħ zykoznaw-
cy.
3. Rewolucja nr 2: generatywizm i lingwistyka formalna
Drug Ģ rewolucj ħ potrafimy dokładnie datowa ę . W roku 1957 ukazały si ħ w wydawnic-
twie Moutona Struktury składniowe Noama Chomsky’ego (1957). Ów „przewrót kopernika ı -
ski” polega ę miał na odrzuceniu tradycji strukturalistycznej. Chomsky uwa Ň ał, Ň e struktura-
lizm nie ujawnia tego, Ň e kompetencja j ħ zykowa jest produktywna; Ň e, innymi słowy, u Ň yt-
kownik j ħ zyka potrafi interpretowa ę wyra Ň enia, których nigdy nie słyszał, i nowe wyra Ň enia
produkowa ę . Ale Chomsky’ego krytyka strukturalizmu (niezbyt zreszt Ģ sprawiedliwa) dotyka
co najwy Ň ej dystrybucjonizmu, i to wcale nie jego litery. Kamieniem obrazy jest dla Chom-
sky’ego ograniczono Ļę korpusów, którymi posiłkowali si ħ dystrybucjoni Ļ ci. Dla nich korpus
był Ņ ródłem danych empirycznych. Poniewa Ň podejmowali trud opisywania ró Ň nych j ħ zyków
dot Ģ d nie opisywanych, w szczególno Ļ ci j ħ zyków Indian, którzy wymierali, korpusy z natury
rzeczy nie mogły by ę du Ň e. Wielkich zreszt Ģ nie dałoby si ħ obj Ģę ogl Ģ dem.
Chomsky, krytyk dystrybucjonizmu, korzysta jednak szeroko z tamtej aparatury poj ħ -
ciowej. Przede wszystkim, id Ģ c Ļ ladem dystrybucjonistów, ujmuje j ħ zyk naturalny teorio-
mnogo Ļ ciowo: to zbiór wszystkich mo Ň liwych zda ı , zbiór niesko ı czony. Opis j ħ zyka, a wi ħ c
jego gramatyka, jest tego zbioru definicj Ģ . Definicj ħ tak Ģ nazywamy gramatyk Ģ formaln Ģ .
Słownik jako zbiór pewnych składników prostych nale Ň y do gramatyki.
Ju Ň od półwiecza Chomsky nosi szat ħ guru współczesnej lingwistyki. Z gramatyki gene-
ratywno-transformacyjnej, której ide ħ wyło Ň ył w Stukturach składniowych , wyrosły kolejne
jej mutacje – rozszerzona teoria standardowa (EST), wprowadzona w Aspektach teorii składni
Chomsky’ego (1966), a tak Ň e teoria rz Ģ du i wi Ģ zania (GB; Haegemann (1992)) oraz minima-
lizm; te dwie ostatnie – z nieistotn Ģ dla nas tutaj filozoficzn Ģ obudow Ģ Gramatyki Uniwersal-
nej. Zrodziły si ħ te Ň w ci Ģ gu dziesi ħ cioleci inne teorie, znacznie lepiej dopracowane formal-
nie, zwłaszcza HPSG (Pollard i Sag (1994)). W ramach tych aparatów powstała i powstaje
gigantyczna literatura na temat najrozmaitszych j ħ zyków, od staroislandzkiego po warlpiri.
Mo Ň na powiedzie ę bez przesady, Ň e du Ň a cz ħĻę populacji lingwistów na Ļ wiecie działa w kr ħ -
gu generatywizmu chomskia ı skiego. Nie dotyczy to, niestety, Polski, w której ziemi ħ t ħ
uprawiaj Ģ niemal wył Ģ cznie angli Ļ ci. Opisuj Ģ oni zreszt Ģ głównie polszczyzn ħ ; obszerny ze-
staw odesła ı do publikacji polskich generatywistów znale Ņę mo Ň na na przykład w tomie stu-
diów po Ļ wi ħ conych HPSG (Przepiórkowski i in. (2002)). Znamienne, Ň e polski przekład
Aspektów Chomsky’ego (1982) przeszedł bez echa. Dopiero ostatnio pojawiło si ħ popularne
kompendium generatywizmu (Mecner (2004)). Generatywizm nie stworzył wszak Ň e wielkich
syntez, a wi ħ c wyczerpuj Ģ cych opisów poszczególnych j ħ zyków; cho ę by tych najwa Ň niej-
szych.
Dobra znajomo Ļę narz ħ dzi generatywizmu to drugi składnik kompetencji współczesne-
go j ħ zykoznawcy.
2
Rewolucja nr 3: lingwistyka informatyczna
O ile dwie poprzednie rewolucje wynikły, by tak rzec, w toku normalnego rozwoju my-
Ļ lowego pewnej dyscypliny, rewolucja ostatnia przyszła z zewn Ģ trz, i to bardzo niedawno.
Komputery, jeszcze w połowie ubiegłego wieku pracuj Ģ ce w Pentagonie, agencjach kosmicz-
nych czy o Ļ rodkach obliczeniowych, trafiły pod strzechy, aby sta ę si ħ standardowym urz Ģ -
dzeniem gospodarstwa domowego. Co wi ħ cej, w ci Ģ gu parunastu lat wymarł pewien fach:
zawód zecera. Skład komputerowy to wyrok Ļ mierci dla drukarstwa Gutenberga.
I jeszcze jeden zbieg okoliczno Ļ ci. Oto w latach 1970. rozpocz ħ ła si ħ współpraca mi ħ -
dzy grup Ģ informatyków z Wydziału Matematyki Uniwersytetu Warszawskiego i grup Ģ j ħ zy-
koznawców Wydziału Polonistyki. Do tej kooperacji obie strony były wtedy dobrze przygo-
towane, podobnie jak pó Ņ niej – do podj ħ cia zaawansowanych prac w zakresie lingwistyki
informatycznej. Ni Ň ej b ħ dzie mowa o niektórych przedsi ħ wzi ħ ciach, które wyrosły z owego
zbli Ň enia dwóch Ļ rodowisk. Poka Ňħ tu w szczególno Ļ ci prace powstałe w Ļ rodowisku war-
szawskim, zwłaszcza w Zakładzie J ħ zykoznawstwa Komputerowego, którym kieruj ħ . Skupie-
nie si ħ tutaj na nich nie ma oznacza ę , Ň e nigdzie indziej nie działo si ħ i nie dzieje nic, co dla
dyscypliny wa Ň ne.
Trzy wa Ň ne czynniki – eliminacja tradycyjnych technik wydawniczych, błyskawiczny
rozwój pami ħ ci masowych i, ostatnio, eksplozja internetu – dały w efekcie dost ħ p do gigan-
tycznych zbiorów tekstowych. R ħ czna ich obsługa jest absolutnie niemo Ň liwa. Nie chodzi
przy tym o materiał empiryczny dla naukowców. Teksty s Ģ w zasi ħ gu r ħ ki szarego obywatela.
Monstrualne zasoby informacji na serwerach internetowych maj Ģ przede wszystkim posta ę
zbiorów tekstowych. Narz ħ dzia operowania takimi zbiorami to wyzwanie nie tylko dla infor-
matyka; tak Ň e (a nawet przede wszystkim) dla lingwisty.
Dost ħ p do zawarto Ļ ci no Ļ nika umo Ň liwiaj Ģ specjalne aplikacje – ró Ň nego rodzaju wy-
szukiwarki. Kiedy piszemy tekst w procesorze komercyjnym, pozwala nam on lokalizowa ę
interesuj Ģ ce nas napisy: obiekty unilateralne. Wystarczy wpisanie odpowiedniego ci Ģ gu zna-
ków, aby dotrze ę do wszystkich tej sekwencji wyst Ģ pie ı . Szukanie jest trywialne, dotyczy
bowiem kształtów:
Kiedy jednak korzystamy z encyklopedii czy słownika elektronicznego, nie chodzi nam
zwykle o dany napis. Oto wynik poszukiwania jednostki kot w Komputerowym Słowniku J ħ -
zyka Polskiego (KSJP):
3
4.
732381314.001.png
Szukali Ļ my tutaj jakiej Ļ jednostki bilateralnej – zapewne leksemu. KSJP ujawnił nam artyku-
ły hasłowe, w których u Ň yto formy leksemu KOT . Co prawda, jedno z pi ħ ciu znalezisk odrzu-
cimy, bo nie chodziło nam raczej o leksem KOTA ... Otó Ň wi ħ kszo Ļę wyszukiwa ı daje rezultaty
niechciane; taki jest po prostu j ħ zyk naturalny, który roi si ħ od neutralizacji. Ambitniejsze
narz ħ dzia kwerend tekstowych słu ŇĢ poszukiwaniom nie „po kształtach”, jak si ħ mawia
w Ň argonie, tylko po jakich Ļ znacznikach. Wprowadzenie do tekstu znaczników (tagów), któ-
re pomog Ģ w ujednoznacznieniach, jest zadaniem lingwistycznym.
ĺ wiadomo Ļę istnienia narz ħ dzi obsługi tekstów to trzeci komponent kompetencji współ-
czesnego j ħ zykoznawcy.
5. Wyzwanie homonimii
Zbiór tekstów przygotowany specjalnie do jakiego Ļ celu nazywamy korpusem. Korpu-
sami posługuj Ģ si ħ j ħ zykoznawcy, przede wszystkim leksykografowie. Korpusy lingwistyczne
bywaj Ģ znakowane, czyli wzbogacone przynajmniej o informacj ħ gramatyczn Ģ ; docelowo –
pewnie pragmatyczn Ģ i semantyczn Ģ .
Polszczyzna reprezentuje klas ħ j ħ zyków wysoce fleksyjnych. Cech Ģ znamienn Ģ takich
j ħ zyków jest homonimiczno Ļę słów. Ostro Ň ny szacunek poucza, Ň e w tek Ļ cie polskim 40 słów
na sto to homonimy, czyli słowa b ħ d Ģ ce kształtami wi ħ cej ni Ň jednej jednostki systemowej.
Fundamentalnym zadaniem lingwistyki informatycznej jest zatem rozwi Ģ zywanie homonimii:
słabe – przypisanie słowom analizowanego tekstu wszystkich interpretacji; mocne – znalezie-
nie interpretacji wła Ļ ciwej (por. ĺ widzi ı ski, Derwojedowa i Rudolf (2003)).
Warto zaznaczy ę , Ň e jedno z pierwszych w Ļ wiecie przedsi ħ wzi ħę lingwistyki korpuso-
wej miało miejsce w Polsce i polszczyzny dotyczyło. W latach 1967-1971 powstał w Uniwer-
sytecie Warszawskim półmilionowy zrównowa Ň ony korpus znakowany, który posłu Ň ył za
baz ħ empiryczn Ģ słownika frekwencyjnego j ħ zyka polskiego. Znakowania dla ujednoznacz-
nienia słów dokonywano r ħ cznie, ale listy frekwencyjne zostały sporz Ģ dzone komputerowo.
Podstawy gramatyczne projektu były tak solidne, Ň e zachowały aktualno Ļę po dzi Ļ dzie ı .
Słownik ukazał si ħ najpierw w postaci pi ħ ciu tomów (w jedenastu woluminach) pod tytułem
Słownictwo współczesnego j ħ zyka polskiego. Listy frekwencyjne (S-LF). Tomy te wyszły po-
tem w postaci zbiorczej pod redakcj Ģ Zygmunta Saloniego jako Słownik frekwencyjny polsz-
czyzny współczesnej (SFPW). SFPW jest słownikiem form wyrazowych popakowanych
w leksemy. Twórcy korpusu przypisywali r ħ cznie znaczniki słowom, które s Ģ homoformami
(Awramiuk (1999)). Nie jest to zatem znakowanie pełne. Ale pocz Ģ tek został uczyniony.
4
732381314.002.png
6. Analizatory i wyszukiwarki
Urz Ģ dzenie do automatycznego rozwi Ģ zywania homonimii to analizator morfologiczny.
Musi on opiera ę si ħ na rygorystycznym opisie gramatycznym danego j ħ zyka. Dorobek grama-
tyczny j ħ zykoznawstwa tradycyjnego, z gramatykami Doroszewskiego, Szobera czy Klemen-
siewicza na czele, nie spełniał oczywi Ļ cie warunków pełno Ļ ci i jawno Ļ ci. Polszczyzna docze-
kała si ħ jednak szcz ħĻ liwie zadowalaj Ģ cych opisów morfologicznych i składniowych – wy-
mie ı my prace Jana Tokarskiego (SJP Dor. z tzw. „notacj Ģ Tokarskiego”, Tokarski (1973) i
(1990)), Zygmunta Saloniego (1992), (2004), Saloniego i ĺ widzi ı skiego (2001), Włodzimie-
rza Gruszczy ı skiego (1989), Janusza Stanisława Bienia (1991), a tak Ň e, z innej szkoły, mor-
fologi ħ z Gramatyki j ħ zyka polskiego PAN (Gramatyka_PAN (1984)). Morfologi ħ mo Ň na ju Ň
było zaimplementowa ę .
Istnieje kilka analizatorów morfologicznych. U schyłku lat 1980. powstał analizator Ro-
berta Wołosza, znany dzi Ļ pod nazw Ģ PoMoR (por. Wołosz (2005)), analizator SAM Krzysz-
tofa Szafrana (1994), Morfeusz Marcina Woli ı skiego (2004a), w ko ı cu – AMOR Joanny
Rabiega-Wi Ļ niewskiej i Michała Rudolfa (2003). Analizatory te przypisuj Ģ słowom zbiory
interpretacji gramatycznych.
Analizator dostaje słowo lub list ħ słów do interpretacji. AMOR na przykład zinterpretu-
je słowo jutro jako nale ŇĢ ce do leksemu przysłówkowego JUTRO 1 lub rzeczownikowego JU-
TRO 2 , czyli dokona rozpoznania cz ħĻ ci mowy ( PoS-tagging ) oraz rozpoznania leksemu, do
którego forma wyrazowa o takim kształcie nale Ň y ( lemmatization ); słowo szkoły – jako repre-
zentuj Ģ ce cztery formy wyrazowe: dopełniaczow Ģ w liczbie pojedynczej b Ģ d Ņ mianowniko-
w Ģ , biernikow Ģ albo wołaczow Ģ w mnogiej; słowo czytali – jako form ħ wyrazow Ģ czasownika
CZYTA Ę z pewnym opisem gramatycznym. Program, który zwraca analizowany tekst z odpo-
wiednimi znacznikami poprzypisywanymi wszystkim słowom, nazywany bywa tagerem ( ta-
gger ), a efektem pracy takiego programu jest tekst (czy korpus) znakowany. Na korpusie,
znakowanym lub nie, pracuj Ģ dopiero zaawansowane wyszukiwarki.
Ostatnio zako ı czyły si ħ dwa projekty naukowo-badawcze, których celem było ju Ň to
zbudowanie korpusu znakowanego, ju Ň to opracowanie narz ħ dzi do obsługi korpusu.
Pierwszy z nich realizowany był w Instytucie Podstaw Informatyki PAN pod kierun-
kiem Adama Przepiórkowskiego. W ramach projektu KBN 7T11C 043 20 powstał w latach
2001-2004 100-milionowy anotowany korpus tekstów polskich (Korpus_IPI_PAN), który nie
ma ambicji bycia korpusem lingwistycznie reprezentatywnym, czyli na przykład zrównowa-
Ň onym; powstała te Ň wyszukiwarka Poliqarp (por. Przepiórkowski (2004)).
Oto pokaz wyszukiwania:
5
732381314.003.png
Zgłoś jeśli naruszono regulamin