Słowa Tygodnia

Rozpoczynamy regularną prezentację słów, które w ostatnim tygodniu pojawiały się szczególnie często w gazetach zrzeszonych w Stowarzyszeniu Gazet Lokalnych. Takie wyrazy jak: nazwiska, nazwy miejsc, firm, organizacji, a także rzeczowniki pospolite, czasowniki i przymiotniki mówią o tym, kto był bohaterem ostatniego tygodnia, czym zajmowali się lokalni urzędnicy, na kim i na czym skoncentrowało się zainteresowanie dziennikarzy.

Jak wybieramy?

Słowa tygodnia wybiera zespół Narodowego Korpusu Języka Polskiego. NKJP jest programem naukowo-badawczym pod egidą Ministerstwa Nauki i Szkolnictwa Wyższego, który ma na celu stworzenie wiarygodnego statystycznie zbioru tekstów polskich wraz z wyszukiwarką, która pozwala znaleźć typowe skojarzenia leksykalne danego słowa, charakterystykę gramatyczną oraz inne cechy, które zainteresują językoznawcę, historyka kultury lub dziennikarza. Do czego służy korpus i co można w nim znaleźć — najłatwiej sprawdzić na stronie www.nkjp.pl. Do Narodowego Korpusu Języka Polskiego weszły teksty kilkunastu gazet zrzeszonych w SGL: Co Tydzień Jaworzno, Gazeta Kociewska, Gazeta Malborska, Gazeta Noworudzka, Gazeta Tczewska, Głos Siemiatycz, Kurier Kwidzyński, Mazowieckie To i Owo, Nakielski Czas, Nowiny Raciborskie, Nowiny Wodzisławskie, Nowy Łowiczanin, Obserwator Lokalny, Rzecz Krotoszyńska, Tygodnik LOKALNA, Tygodnik Podhalański, Tygodnik Rybnicki, Tygodnik Tucholski, Wiadomości Wrzesińskie. To dzięki tym gazetom korpus ma wiarygodną reprezentację regionalną, tzn. nie ogranicza się do tekstów z gazet i od wydawców z pięciu największych polskich miast.

Zbierając teksty z gazet z kolejnych dni i tygodni, zwracamy uwagę na słowa, które stają się popularne na tydzień lub kilka dni, a potem nikną w niepamięci. Takie słowa kluczowe dla danego okresu da się wybrać za pomocą dość prostego porównania częstości. Program ten przygotowuje listę frekwencyjną wszystkich słów użytych w artykułach z Tygodnika Lokalnego z ostatniego tygodnia i porównuje ją z kilkaset razy większą listą słów gazet lokalnych z ostatnich kilku lat. Wyrazy na obu listach są odmienione po polsku, tzn. częstość różnych form gramatycznych obliczona jest łącznie. Aby wybrać słowa kluczowe, wystarczy tylko porównać częstości względne danego leksemu (wszystkich form gramatycznych jednego wyrazu) na obu listach. Np. wyraz pracodawca, który w pierwszych 2 tygodniach stycznia pojawił się na stronach SGL 12 razy, a w całym korpusie 122 razy (a więc 10 razy częściej), jest na pewno kluczowy, ponieważ korpus porównawczy przewyższa liczba słów korpusu ostatnich 2 tygodni wielokrotnie więcej niż 10 razy. Gdyby częstość względna tego słowa miałaby być taka sama, to w tekstach ostatniego tygodnia pojawiłoby się 200 razy rzadziej niż w całym kwartale.

Taka procedura wyklucza z listy słów tygodnia te, które pojawiają się najczęściej w każdym polskim tekście. Lista frekwencyjna dowolnego tekstu zacznie się od przyimków w i z, potem będą słowa być, i, się, to, nie i inne wyrazy najczęstsze (kolejność może się nieznacznie zmieniać). Ponieważ przyimek w jest w każdym polskim tekście najczęstszy (przeciętnie 3,5% wszystkich wyrazów), to nie zmieni swojej pozycji z tygodnia na tydzień. Lista frekwencyjna 200 najczęstszych słów Korpusu Języka Polskiego PWN dostępna jest na stronie http://korpus.pwn.pl/stslow.php. Cały korpus PWN liczy około 100 milionów słów i współtworzy Narodowy Korpus Języka Polskiego.

Problemy gramatyczne i statystyczne

Program przygotowujący listy odmienia polskie wyrazy, ale nie jest przygotowany do odmiany nowych nazwisk i wyrazów. Na szczęście można go tej odmiany nauczyć na bieżąco, dopisując wzory dla nowych słów.

Znacznie większym problemem od samej odmiany jest w polszczyźnie homonimia (czyli wieloznaczność) form gramatycznych, tzn. fakt, że ten sam ciąg liter może mieć różną funkcję gramatyczną lub leksykalną (np. forma wyrazowa myśli to 3 os. lp. cz. ter. czasownika myśleć albo dopełniacz, celownik czy miejscownik lp. rzeczownika myśl. Program liczący słowa nie może decydować o interpretacji form homonimicznych w każdym zdaniu, liczy więc wszystkie jednostki myśli, a następnie rozdziela je według proporcji zadanej na wstępie, sprawdzonej poprzez ręczne oznakowanie wzorcowego tekstu. W przypadku słowa myśli jest to 67% form od myśl i 33% od myśleć. Frekwencje wzorcowe form homonimicznych podaje także Słownik frekwencyjny współczesnej polszczyzny, oparty na tekstach sprzed 30 lat, można mu więc zaufać w wypadku myśli, ale nie słów, które pojawiły się lub zyskały na popularności po 1989 roku.

Wiarygodność frekwencji

O stopniu kluczowości słowa w danym okresie przesądza nie tylko prosty iloraz częstości względnych. Nazwisko, które pojawiło się na stronach SGL po raz pierwszy, ale tylko raz, będzie mniej kluczowe, tzn. czytelnicy zapamiętają je trudniej niż słowo, które w ostatnim tygodniu pojawia się 10 razy, a w ciągu ostatnich lat 100 razy (podobne są relacje dla pracodawcy). Aby uzyskać lepsze miary kluczowości słowa, stosujemy więc kilka niezależnych testów statystycznych, które uwzględniają nie tylko frekwencję względną danego słowa w ostatnim tygodniu i w okresie porównawczym, ale także bezwzględną częstość wystąpień słowa oraz jego dyspersję, czyli uznaje za bardziej kluczowe to słowo, które pojawiło się 10 razy w 5 różnych artykułach niż to, które pojawiło się 5 razy w jednym artykule.

Oczywiście obraz tygodnia wyłaniający się z porównania frekwencji będzie tym bardziej wiarygodny, im więcej artykułów z gazet zrzeszonych w SGL pojawi się na stronie www.gazetylokalne.pl. Zachęcamy więc Państwa do zamieszczania jak największej liczby artykułów.

Aby uwiarygodnić zbiór porównawczy, zwracamy się też o udostępnienie tekstów archiwalnych z ostatnich lat także tych gazet SGL, których jeszcze nie ma w Narodowym Korpusie Języka Polskiego. Będziemy też wdzięczni za wszelkie uwagi dotyczące naszego programu monitorowania częstości słów.

Marek Łaziński, Anna Andrzejczuk i Daniel Janus
Narodowy Korpus Języka Polskiego

Lista zestawień