Zasoby do pobrania
Informacje wstępne
Wszystkie zasoby wymienione poniżej, z wyjątkiem Korpusu "Słownika frekwencyjnego...", dostępne są obecnie na zasadach opisanych w niniejszej umowie licencyjnej, bezpłatnie. Rozpoczęcie pobierania zasobów oznacza akceptację warunków tej umowy. Korpus "Słownika frekwencyjnego..." dostępny jest na licencji GNU.
Większość zasobów dostępna jest w postaci archiwów .tar.bz2. W systemie Windows pliki takie można rozpakować np. przy użyciu bezpłatnego programu 7-Zip.
Korpusy
Wersje binarne korpusów do przeszukiwania za pomocą programu Poliqarp, wszystkie w postaci archiwum tar skompresowanego programem bzip2:
2. wydanie Korpusu IPI PAN (marzec 2006)
- 2.all.250.bin.tar.bz2 — pełny Korpus IPI PAN, czyli ponad 250 mln. segmentów.
-
2.sample.30.bin.tar.bz2 —
próbka Korpusu IPI PAN dostępna na stronie
http://korpus.pl/; ponad 30
mln. segmentów.
Podobnie jak to miało miejsce w wypadku wydania 1., niniejsza wersja sample jest korpusem różnorodnym o następującym składzie:- proza współczesna: ponad 10%
- proza dawna: prawie 10%
- teksty książkowe niebeletrystyczne (głównie naukowe): 10%
- prasa: 50%
- stenogramy sejmowe i senackie (w tym z komisji śledczej): 15%
- ustawy: 5%
1. wydanie Korpusu IPI PAN (czerwiec 2004)
- 1.sources.100.bin.tar.bz2 — próbka Korpusu IPI PAN udostępniana także bezpłatnie (do zastosowań niekomercyjnych) w postaci źródłowej. (W celu uzyskania dostępu do postaci źródłowej należy skontaktować się z Adamem Przepiórkowskim.) Zawiera ponad 100 mln. segmentów, którym odpowiada ponad 286 tys. różnych form hasłowych. Podkorpus ten powstał z 1. wydania pełnego Korpusu IPI PAN po wyłączeniu tekstów prasowych oraz losowo ok. 10% akapitów z każdego tekstu podlegającego prawu autorskiemu.
- 1.wstepny.70.bin.tar.bz2 — próbka Korpusu IPI PAN z płyty "Korpus IPI PAN. Wersja wstępna", zawiera ponad 70 mln. segmentów, którym odpowiada ponad 364 tys. różnych form hasłowych.
-
1.sample.15.bin.tar.bz2 —
próbka Korpusu IPI PAN dostępna na stronie
http://korpus.pl/; ponad 15
mln. segmentów, którym odpowiada ok. 217 tys. różnych form hasłowych.
Korpus sample jest korpusem różnorodnym, choć być może nie zasługującym na miano reprezentatywnego, zawierającym następujące rodzaje tekstów:- proza współczesna: 10%
- proza dawna: 10%
- nauka: 10%
- prasa: 50%
- stenogramy sejmowe i senackie (w tym z komisji śledczej): 15%
- ustawy: 5%
-
frek.bin.tar.bz2 —
kolejna wersja korpusu Słownika frekwencyjnego polszczyzny
współczesnej (Kurcz, Lewicki, Sambor, Szafran i Woronczak, 1990,
Instytut Języka Polskiego PAN, Kraków). Korpus ten został stworzony
w latach 60. ubiegłego stulecia i zawiera pół miliona słów
— po 100 tys. słów z:
- tekstów popularnonaukowych,
- drobnych wiadomości prasowych,
- tekstów publicystycznych,
- prozy artystycznej oraz
- dramatu artystycznego.
Niniejsza wersja korpusu, Korpus Słownika Frekwencyjnego (IPI PAN), została na nowo oznakowana tagsetem IPI PAN i w całości ręcznie zweryfikowana. Korpus ten składa się z ok. 662 tys. segmentów reprezentujących ponad 35 tys. form hasłowych. Podobnie jak Wzbogacony Korpus Słownika Frekwencyjnego, także Korpus Słownika Frekwencyjnego (IPI PAN), w tym jego XML-owa postać źródłowa, jest dostępny na prawach Powszechnej Licencji Publicznej GNU.
Wersja źródłowa (XML-owa) Korpusu "Słownika frekwencyjnego..." w postaci archiwum tar skompresowanego programem bzip2:
Poliqarp
Przejdź tutaj.

