14 - Nastroj na extrakci textu z HTML stranek
HTML::Strip
- http://search.cpan.org/~kilinrax/HTML-Strip-1.06/Strip.pm
- nepodporuje UTF-8
Boilerpipe
- Tool/boilerpipe
- Vystup je vzdy nasobkem 8192
- S vetsinou konfiguraci vraci prazdny text
DOMDocument
- http://cz.php.net/domdocument.loadhtml
- snadne pouziti
Poznamky
- ropoznani entit neni uplne snadne - v SGML nemusi koncit ;
- http://www.ms.mff.cuni.cz/~majlm5am/strip-html/
Plan
- kdyz uz se bude pouzivat, tak by se z neho daly ziskat i odkazy