SeedDMS - render thumbnailů #34
Labels
No Label
app-basic
app-ckan
app-crisiscleanup
app-cts
app-decidim
app-dhis2
app-frontlinesms
app-gnuhealth
app-kanboard
app-mifosx
app-motech
app-odoo
app-opendatakit
app-pandora
app-sahana
app-seeddms
app-sigmah
app-taarifa
app-ushahidi
critical
CZ
documentation
Doing
enhancement
GMaps
info
Mapbox
needinfo
new-app
OSM
performance
QGIS
regression
suggestion
To Do
upstream
No Milestone
No project
No Assignees
1 Participants
Notifications
Due Date
No due date set.
Dependencies
No dependencies set.
Reference: Spotter-Cluster/Spotter-VM#34
Loading…
Reference in New Issue
Block a user
No description provided.
Delete Branch "%!s()"
Deleting a branch is permanent. Although the deleted branch may continue to exist for a short time before it actually gets removed, it CANNOT be undone in most cases. Continue?
po uploadu PDF do SeedDMS nemá dokument vykreslený náhled, pouze ikonu.
hledal jsem to v nastavení, kde se to zapíná, ale nenašel.
můžete se prosím na to podívat?
changed title from SeedDS - render thumbnailů to SeedD{+M+}S - render thumbnailů
closed via commit
6b0d1f111c
SeedDMS umí se soubory provádět následující akce:
Přidal jsem komponenty pro vytváření obrázkových náhledů u obrázků, PDF a plaintextových souborů a komponenty pro indexování PDF pro fulltextové vyhledávání. Podpora jakýchkoliv dalších formátů nebo výše uvedených funkcí vyžaduje další komponenty, zabírající další místo na disku.
V současnosti SeedDMS i s příslušenstvím zabírá cca 300 MB. Přidání parseru pro MS Office a OpenOffice formáty by znamenalo dalších 200 MB a tak dále. Je tedy důležité najít kompromis mezi očekávaným množstvím dokumentů v daném formátu a výslednou velikostí image.
jasné, chápu. Takto to zatím bude stačit, praxe ukáže co případně změnit.
Tak nakonec úplně jinak a daleko složitěji. Doporučované komponenty pro zpracování dokumentů si rozbily hubu na češtině. Takže jsem celý den ladil importéry a parsery a doladil jsem do stavu, kdy celá paráda sice zabírá 380 MB, ale umí zpracovat indexy a vytvořit náhledový obrázek a PDF i pro všelijaké kancelářské dokumenty (rtf, doc, docx, odt, xls, xlsx, ods, csv, html). Rozhodně to nepovažuji za ztrátu času, protože se stejný problém může týkat i dalších produktů využívajících fulltext.
Největší problém teď dělají paradoxně úplně obyčejné plaintextové soubory. Milé Windows je totiž ukládají v kódování Windows-1250 a indexer takové zahodí, protože čeká UTF-8 (ty lezou z linuxu nebo Macu). Bohužel neexistuje jednoduchý mechanismus jak spolehlivě poznat v jakém kódování daný soubor je. Nicméně nepředpokládám, že zrovna texťáky budou obsahovat nějaké vitální oficiální informace, takže u nich se asi absence indexace dá přežít.
Na ty náhledy jsem si musel napsat cca dvacetiřádkový patch. Dokumentace ke konfiguraci SeedDMS tvrdí, že jsou konfigurovatelné, ale nejsou, takže jsem na toto téma otevřel i ticket #355 v upstreamu, nicméně celé SeedDMS je one-man show, takže si od toho moc neslibuju.
Díky, to je víc, než jsem čekal. S těmi txt bych to nehrotil a momentálně toto považuji za vyřešené issue.
Jen mě napadlo,
od doby co jste stahoval celý virtuální server z FORPSI, jsem tam ještě uploadoval data do SeedDMS. Tj. na serveru je teď víc dokumentů, než co jste stahoval.
changed milestone to %1
mentioned in issue #261