SeedDMS - render thumbnailů #34

New Issue

2017-09-22T14:12:48+02:00

Podhorecky commented

2017-09-22 14:12:48 +02:00

(Migrated from git.spotter.cz)

po uploadu PDF do SeedDMS nemá dokument vykreslený náhled, pouze ikonu.

hledal jsem to v nastavení, kde se to zapíná, ale nenašel.
můžete se prosím na to podívat?

po uploadu PDF do SeedDMS nemá dokument vykreslený náhled, pouze ikonu. hledal jsem to v nastavení, kde se to zapíná, ale nenašel. můžete se prosím na to podívat?

Podhorecky commented

2017-09-22 18:43:30 +02:00

(Migrated from git.spotter.cz)

changed title from SeedDS - render thumbnailů to SeedD{+M+}S - render thumbnailů

changed title from **SeedDS - render thumbnailů** to **SeedD{+M+}S - render thumbnailů**

Disassembler commented

2017-10-07 09:44:19 +02:00

(Migrated from git.spotter.cz)

closed via commit 6b0d1f111c

closed via commit 6b0d1f111c1fba5aa87a0675ca32432419b25094

Disassembler commented

2017-10-07 10:25:17 +02:00

(Migrated from git.spotter.cz)

SeedDMS umí se soubory provádět následující akce:

Vytvoření obrázkového náhledu
Vytvoření PDF náhledu z jiného souboru obsahujícího text (*.doc, *.ods, *.rtf atd.)
Indexování textového obsahu souboru pro fulltextové vyhledávání

Přidal jsem komponenty pro vytváření obrázkových náhledů u obrázků, PDF a plaintextových souborů a komponenty pro indexování PDF pro fulltextové vyhledávání. Podpora jakýchkoliv dalších formátů nebo výše uvedených funkcí vyžaduje další komponenty, zabírající další místo na disku.

V současnosti SeedDMS i s příslušenstvím zabírá cca 300 MB. Přidání parseru pro MS Office a OpenOffice formáty by znamenalo dalších 200 MB a tak dále. Je tedy důležité najít kompromis mezi očekávaným množstvím dokumentů v daném formátu a výslednou velikostí image.

SeedDMS umí se soubory provádět následující akce: - Vytvoření obrázkového náhledu - Vytvoření PDF náhledu z jiného souboru obsahujícího text (*.doc, *.ods, *.rtf atd.) - Indexování textového obsahu souboru pro fulltextové vyhledávání Přidal jsem komponenty pro vytváření obrázkových náhledů u obrázků, PDF a plaintextových souborů a komponenty pro indexování PDF pro fulltextové vyhledávání. Podpora jakýchkoliv dalších formátů nebo výše uvedených funkcí vyžaduje další komponenty, zabírající další místo na disku. V současnosti SeedDMS i s příslušenstvím zabírá cca 300 MB. Přidání parseru pro MS Office a OpenOffice formáty by znamenalo dalších 200 MB a tak dále. Je tedy důležité najít kompromis mezi očekávaným množstvím dokumentů v daném formátu a výslednou velikostí image.

Podhorecky commented

2017-10-07 10:31:58 +02:00

(Migrated from git.spotter.cz)

jasné, chápu. Takto to zatím bude stačit, praxe ukáže co případně změnit.

Disassembler commented

2017-10-07 23:30:30 +02:00

(Migrated from git.spotter.cz)

Tak nakonec úplně jinak a daleko složitěji. Doporučované komponenty pro zpracování dokumentů si rozbily hubu na češtině. Takže jsem celý den ladil importéry a parsery a doladil jsem do stavu, kdy celá paráda sice zabírá 380 MB, ale umí zpracovat indexy a vytvořit náhledový obrázek a PDF i pro všelijaké kancelářské dokumenty (rtf, doc, docx, odt, xls, xlsx, ods, csv, html). Rozhodně to nepovažuji za ztrátu času, protože se stejný problém může týkat i dalších produktů využívajících fulltext.

Největší problém teď dělají paradoxně úplně obyčejné plaintextové soubory. Milé Windows je totiž ukládají v kódování Windows-1250 a indexer takové zahodí, protože čeká UTF-8 (ty lezou z linuxu nebo Macu). Bohužel neexistuje jednoduchý mechanismus jak spolehlivě poznat v jakém kódování daný soubor je. Nicméně nepředpokládám, že zrovna texťáky budou obsahovat nějaké vitální oficiální informace, takže u nich se asi absence indexace dá přežít.

Na ty náhledy jsem si musel napsat cca dvacetiřádkový patch. Dokumentace ke konfiguraci SeedDMS tvrdí, že jsou konfigurovatelné, ale nejsou, takže jsem na toto téma otevřel i ticket #355 v upstreamu, nicméně celé SeedDMS je one-man show, takže si od toho moc neslibuju.

Tak nakonec úplně jinak a daleko složitěji. Doporučované komponenty pro zpracování dokumentů si rozbily hubu na češtině. Takže jsem celý den ladil importéry a parsery a doladil jsem do stavu, kdy celá paráda sice zabírá 380 MB, ale umí zpracovat indexy a vytvořit náhledový obrázek a PDF i pro všelijaké kancelářské dokumenty (rtf, doc, docx, odt, xls, xlsx, ods, csv, html). Rozhodně to nepovažuji za ztrátu času, protože se stejný problém může týkat i dalších produktů využívajících fulltext. Největší problém teď dělají paradoxně úplně obyčejné plaintextové soubory. Milé Windows je totiž ukládají v kódování Windows-1250 a indexer takové zahodí, protože čeká UTF-8 (ty lezou z linuxu nebo Macu). Bohužel neexistuje jednoduchý mechanismus jak spolehlivě poznat v jakém kódování daný soubor je. Nicméně nepředpokládám, že zrovna texťáky budou obsahovat nějaké vitální oficiální informace, takže u nich se asi absence indexace dá přežít. Na ty náhledy jsem si musel napsat cca dvacetiřádkový patch. Dokumentace ke konfiguraci SeedDMS tvrdí, že jsou konfigurovatelné, ale nejsou, takže jsem na toto téma otevřel i ticket [#355](https://sourceforge.net/p/seeddms/tickets/355/) v upstreamu, nicméně celé SeedDMS je one-man show, takže si od toho moc neslibuju.

Podhorecky commented

2017-10-08 01:24:24 +02:00

(Migrated from git.spotter.cz)

Díky, to je víc, než jsem čekal. S těmi txt bych to nehrotil a momentálně toto považuji za vyřešené issue.

Podhorecky commented

2017-10-08 02:27:42 +02:00

(Migrated from git.spotter.cz)

Jen mě napadlo,
od doby co jste stahoval celý virtuální server z FORPSI, jsem tam ještě uploadoval data do SeedDMS. Tj. na serveru je teď víc dokumentů, než co jste stahoval.

Jen mě napadlo, od doby co jste stahoval celý virtuální server z FORPSI, jsem tam ještě uploadoval data do SeedDMS. Tj. na serveru je teď víc dokumentů, než co jste stahoval.

Podhorecky commented

2018-04-01 00:24:51 +02:00

(Migrated from git.spotter.cz)

changed milestone to %1

Disassembler commented

2018-05-05 23:15:51 +02:00

(Migrated from git.spotter.cz)

mentioned in issue #261

Sign in to join this conversation.

1 Participants

Notifications

Due Date

No due date set.

Dependencies

No dependencies set.

Reference: Spotter-Cluster/Spotter-VM#34