wiki:Task/14

14 - Nastroj na extrakci textu z HTML stranek

HTML::Strip

Boilerpipe

  • Tool/boilerpipe
  • Vystup je vzdy nasobkem 8192
  • S vetsinou konfiguraci vraci prazdny text

DOMDocument

Poznamky

Plan

  • kdyz uz se bude pouzivat, tak by se z neho daly ziskat i odkazy