wiki:Tool/boilerpipe

Boilerpipe

Pozadavky

  • java-jdk
  • ant
  • subversion

BoilerPlateRemover.sh

  • bez parametru:
    • cte STDIN a vysledek zapisuje na STDOUT
    • cat html | BoilerPlateRemover.sh > txt
  • se 2 parametry:
    • vstupni a vystupni adresar
    • vstupni adresar obsahuje html soubory v UTF-8
    • do vystupniho adresare se vytvori vycistene soubory se stejnymi nazvy
    • BoilerPlateRemover.sh inDir outDir

BoilerPlateRemoverServer.sh

  • Spusti server na portu 4321
  • od klienta ziska HTML a vrati mu vycisteny text
  • BoilerPlateRemoverServer.sh

TODO

  • u serveru by se mel dat vybrat port
  • obecne je tam nekolik druhu extraktoru => mohly by se nejak inteligentne vybirat

Poznamka

  • Pokud ho spustim na  Arsen - tak jen 1 z 5 vrati alespon neco. Ostatni vrati prazdny retezec.