godz. 13:30, prof. dr hab. Jan Mielniczuk (IPI PAN)

Selekcja zmiennych w wysokowymiarowych problemach regresyjnych

Dla przypadku danych wysokowymiarowych, dla których liczba predyktorów jest większa od liczby obserwacji, rozważymy problem konstrukcji rzadkiego modelu predykcyjnego, czyli prostej i jednocześnie silnej zależności między małą liczbą predyktorów a zmienną zależną y.
Istotną trudnością jest tu złe uwarunkowanie problemu oraz częste wzajemne skorelowanie predyktorów, co powoduje, że filtracje oparte na sile zależności indywidualnych predyktorów z y nie prowadzą do satysfakcjonujących rozwiązań. Jedną z możliwości stanowią metody wykorzystujące maksymalizację funkcji wiarogodności z karą indukującą rzadkość, takie, jak LASSO.
Obecnie wiadomo, że LASSO wybiera zbyt duży zbiór zmiennych aktywnych, oraz że zmienne nieaktywne mogą być włączane do modelu przed zmiennymi aktywnymi. Problem ten usiłuje się rozwiązać przy użyciu innych kar, w tym kar quasi-wypukłych FCP.
W referacie przedstawię podejście SOS (Screening-Ordering-Selection), oparte na wstępnym wyborze zmiennych przy użyciu LASSO, dopasowaniu małego modelu używającego wybranych zmiennych, oraz wyborze ostatecznego zbioru zmiennych, które wykorzystuje uogólnione kryteria informacyjne. Skupię się przede wszystkim na omówieniu zależności liniowych i odpowiedzi ilościowej, omawiając jednak krótko sytuację odpowiedzi binarnej i złej specyfikacji modelu.
Omawiane wyniki pochodzą z wspólnych prac z Piotrem Pokarowskim, Pawłem Teisseyre i Mariuszem Kubkowskim.

godz. 10:15, Karol Opara (Instytut Badań Systemowych Polskiej Akademii Nauk)

Rymy częstochowskie w poezji polskiej - ujęcie ilościowe

Fleksyjny charakter języka polskiego powoduje, że tak samo odmienione części mowy mają zazwyczaj jednobrzmiące końcówki. Umożliwia to łatwe tworzenie dużej liczby rymujących się ze sobą wyrazów nazywanych rymami częstochowskimi (albo gramatycznymi). W referacie przedstawiono wyniki badania jakości i finezji warsztatu poetyckiego różnych polskich twórców opartej na komputerowym wyliczaniu udziału rymów częstochowskich w ich liryce. Zaprezentowano metodę automatycznego wykrywania rymów, wydobywania z tekstu informacji o charakterze statystycznym oraz nowe, "literackie" kryterium doboru liczności próbki do testów statystycznych. Przedstawiono też ranking warsztatu poetyckiego różnych liryków polskich.

godz. 13:00, Paweł Teisseyre (IPI PAN)

Selekcja zmiennych w klasyfikacji z wieloma etykietami

Referat dotyczy metod selekcji zmiennych dla klasyfikacji wieloetykietowej (KW) w sytuacji danych o dużym wymiarze. W ostatnich latach problem KW wzbudził bardzo duże zainteresowanie w wielu dziedzinach, takich, jak automatyczna anotacja obrazów (przewidywanie, jakie obiekty znajdują się na zdjęciu w oparciu o pewne cechy obrazu cyfrowego), kategoryzacja tekstów (przewidywanie, jakich tematów dotyczy tekst w oparciu o cechy używanego języka), marketing (przewidywanie kupowanych produktów w oparciu o pewne cechy klientów) i medycyna (przewidywanie, które choroby występują jednocześnie, na podstawie pewnych cech pacjentów). Jednym z podstawowych zadań w KW jest umiejętne wykorzystanie zależności między etykietami, co pozwala osiągnąć znacznie lepsze rezultaty niż "naiwna" metoda, w której budujemy oddzielnie klasyfikator dla każdej etykiety (nie biorąc pod uwagę zależności między odpowiedziami). W ostatnich latach opracowano szereg metod umożliwiających predykcję dla wielu etykiet jednocześnie. Większość metod bazuje na wykorzystaniu zależności między etykietami. Brakuje jednak wyników (zarówno teoretycznych, jak i empirycznych), które pokazują, jaki jest wpływ wyboru zmiennych na działanie klasyfikatorów. W referacie przedstawię metodę która umożliwia jednoczesną predykcję etykiet i selekcję istotnych zmiennych. Metoda ta wykorzystuje łańcuchy klasyfikatorów i sieć elastyczną.

godz. 10:15 (czwartek), Damir Ćavar (Indiana University)

The Free Linguistic Environment

The Free Linguistic Environment (FLE) started as a project to develop an open and free platform for white-box modeling and grammar engineering, i.e. development of natural language morphologies, prosody, syntax, and semantic processing components that are for example based on theoretical frameworks like two-level morphology, Lexical Functional Grammar (LFG), Glue Semantics, and similar. FLE provides a platform that makes use of some classical algorithms and also new approaches based on Weighted Finite State Transducer models to enable probabilistic modeling and parsing at all linguistic levels. Currently its focus is to provide a platform that is compatible with LFG and an extended version of it, one that we call Probabilistic Lexical Functional Grammar (PLFG). This probabilistic modeling can apply to the c(onstituent) -structure component, i.e. a Context Free Grammar (CFG) backbone can be extended by a Probabilistic Context Free Grammar (PCFG). Probabilities in PLFG can also be associated with structural representations and corresponding f(unctional feature)-structures or semantic properties, i.e. structural and functional properties and their relations can be modeled using weights that can represent probabilities or other forms of complex scores or metrics. In addition to these extensions of the LFG-framework, FLE provides also an open platform for experimenting with algorithms for semantic processing or analyses based on (probabilistic) lexical analyses, c- and f-structures, or similar such representations. Its architecture is extensible to cope with different frameworks, e.g. dependency grammar, optimality theory based approaches, and many more.

godz. 10:15 (czwartek), Kamil Kędzia, Konrad Krulikowski (Uniwersytet Warszawski)

Generowanie szablonów parafraz dla języka polskiego przy użyciu korpusu równoległego

W ramach projektu CLARIN-PL przygotowano oprogramowanie służące generowaniu parafraz dla języka polskiego. Jego twórcy zaprezentują jego działanie na wybranych przykładach. Przybliżą również wykorzystaną metodę zespołu Ganitkevitch i in. (2013), która posłużyła jej autorom do stworzenia ogólnodostępnego zasobu Paraphrase Database (PPDB). Omówią także jej rozszerzenie służące do znajdowania szablonów parafraz, czy zastosowane podejście do wyzwań charakterystycznych dla języka polskiego. Dodatkowo przedstawią sposób mierzenia jakości parafraz.

godz. 13:00, Jacek Koronacki (IPI PAN)

Analiza danych o wielkim wymiarze

Rozwój technologii teleinformatycznych sprawia, że możemy utonąć w powodzi danych. Ale możemy też z tej powodzi starać się wydobywać nową i wartościową wiedzę. Na przykład niezwykle rozwinęły się biotechnologie pozwalające na zbieranie masowych danych o żywych komórkach. Wyzwanie, jakie się za tym od początku kryło, brało się stąd, że typowe dane w takich zastosowaniach biologicznych charakteryzowały się małą liczbą obserwacji (obiektów) – np. rzędu dziesiątków lub setek – z których każda opisana była tysiącami lub większą liczbą atrybutów (cech). Dobrymi i ważnymi przykładami problemów tego typu były dane mikromacierzowe, dotyczące tzw. ekspresji genów, lub dane proteomiczne. Z czasem badania tego typu przyniosły większe liczby obserwacji, ale też jeszcze większe liczby atrybutów opisujących te obserwacje. W ramach wykładu, w jego zasadniczej części, przedstawiony zostanie stan badań w obszarze uczenia pod nadzorem w opisanej sytuacji.

W drugiej, znacznie krótszej, części wykładu spojrzymy ze statystycznej – i w jakiejś mierze filozoficznej – perspektywy na problem szerszy, a mianowicie analizy zbiorów danych zwanych po angielsku „Big Data”.

Koronacki