Zadania różne - zestaw 2.

Uniwersytet Gdański - Instytut Matematyki - Zakład Informatyki - Strona domowa

Zadania różne - zestaw 2.

Zestaw związany z pobieraniem i analizą danych pochodzących z internetu. Wszystkie poniższe zadania należy wykonać używając wyłącznie perla. Oczywiście wiadomo, że są dostępne także inne narzędzia w stylu wget, sed, itp. ale z tych celowo _NIE_ korzystamy. Można także poszaleć przy opracowywaniu oneline-rów.

Zadanie poniższe składa się z wielu podzadań, a można je przedstawić jednym zdaniem: oblicz częstości występowania słów w powieści Sienkiewicza pod tytułem Quo Vadis. Dla opornych poniżej przedstawiony jest przybliżony sposób postępowania (oczywiście jeżeli ktoś nie chce pisać wszystkiego w jednej linijce).

  1. Zapoznaj się z dokumentacją modułu LWP::Simple. Moduł ten jest pochodną biblioteki LWP, której funkcjonalność jest bardzo bogata i szczegółowo opisana w systemowym podręczniku do perla.
  2. Za pomocą biblioteki LWP::Simple pobierz całą treść książki Quo Vadis Henryka Sienkiewicza i zapisz wszystkie pobrane strony w jednym pliku HTML. Praktyka wskazuje, że w tym celu najwygodniej użyć prostego jednolinijkowca. Książka znajduje się pod adresem: http://monika.univ.gda.pl/~literat/quovadis/ i wygląda na to, że można bez przeszkód ją pobierać. Uwaga: pobierz wyłącznie treści rozdziałów, bez wstępu i epilogu. Wielkość pliku pobranego w ten sposób nie przekracza 1.5 MB.
  3. Używając kolejnego jednolinijkowca, usuń cały HTML z posiadanego dokumentu. Wielkość pliku powinna zmniejszyć się do ok. 1.1 MB.
  4. Przypomnij sobie dzień miesiąca w którym się urodziłeś/aś. :) Dla orientacji - powinna to być liczba z przedziału 1-31, zależnie od przypadku. Zapamiętaj tę liczbę w swojej głowie jako liczbę A.
  5. Używając kolejnego prostego jednolinijkowca, oblicz jakie jest A-kolejne, najczęściej występujące słowo w powieści Sienkiewicza, licząc od występujących najczęściej.
  6. Programy, plik z podsumowaniem liczby słów oraz wszystkie pośrednie rozwiązania wyślij w formie raportu do prowadzącego zajęcia. Czas do ukończenia zadań: 20061031235900.
Uniwersytet Gdański - Instytut Matematyki - Zakład Informatyki - Strona domowa - Perl
[c] Piotr Arłukowicz, materiały z tej strony udostępnione są na licencji GNU.