Zadania różne - zestaw 2.
Uniwersytet Gdański - Instytut Matematyki - Zakład Informatyki - Strona domowaZadania różne - zestaw 2.
Zestaw związany z pobieraniem i analizą danych pochodzących z internetu. Wszystkie poniższe zadania należy wykonać używając wyłącznie perla. Oczywiście wiadomo, że są dostępne także inne narzędzia w stylu wget, sed, itp. ale z tych celowo _NIE_ korzystamy. Można także poszaleć przy opracowywaniu oneline-rów.
Zadanie poniższe składa się z wielu podzadań, a można je przedstawić jednym zdaniem: oblicz częstości występowania słów w powieści Sienkiewicza pod tytułem Quo Vadis. Dla opornych poniżej przedstawiony jest przybliżony sposób postępowania (oczywiście jeżeli ktoś nie chce pisać wszystkiego w jednej linijce).
- Zapoznaj się z dokumentacją modułu LWP::Simple. Moduł ten jest pochodną biblioteki LWP, której funkcjonalność jest bardzo bogata i szczegółowo opisana w systemowym podręczniku do perla.
- Za pomocą biblioteki LWP::Simple pobierz całą treść książki Quo Vadis Henryka Sienkiewicza i zapisz wszystkie pobrane strony w jednym pliku HTML. Praktyka wskazuje, że w tym celu najwygodniej użyć prostego jednolinijkowca. Książka znajduje się pod adresem: http://monika.univ.gda.pl/~literat/quovadis/ i wygląda na to, że można bez przeszkód ją pobierać. Uwaga: pobierz wyłącznie treści rozdziałów, bez wstępu i epilogu. Wielkość pliku pobranego w ten sposób nie przekracza 1.5 MB.
- Używając kolejnego jednolinijkowca, usuń cały HTML z posiadanego dokumentu. Wielkość pliku powinna zmniejszyć się do ok. 1.1 MB.
- Przypomnij sobie dzień miesiąca w którym się urodziłeś/aś. :) Dla orientacji - powinna to być liczba z przedziału 1-31, zależnie od przypadku. Zapamiętaj tę liczbę w swojej głowie jako liczbę A.
- Używając kolejnego prostego jednolinijkowca, oblicz jakie jest A-kolejne, najczęściej występujące słowo w powieści Sienkiewicza, licząc od występujących najczęściej.
- Programy, plik z podsumowaniem liczby słów oraz wszystkie pośrednie rozwiązania wyślij w formie raportu do prowadzącego zajęcia. Czas do ukończenia zadań: 20061031235900.
[c] Piotr Arłukowicz, materiały z tej strony udostępnione są na licencji GNU.