[kde-linux] OCR for linux

Thierry de Coulon tcoulon at decoulon.ch
Wed Oct 11 17:21:40 UTC 2006


My answer is: I don't know.

I've given up using gocr as the soft is quite unusable.

I've tried your way (the text is in french, which evidently does not help) and 
got this (from a pdf, using knapshot):

Ld pnll|io| de |'eau
 L 7p d pnllllon
 Ol |tlnLIP UIIlIP| II  P ||tlnn q| p|\'n n| ln rlgln nmP|c r n ln
 trlPll
 .  lxlll|lcln llllIlq| llrc lh alllall P l c rwnc dc rntlrr Pll knlnn), |
 | \h lclnlxldl| llLlllTlll lllrmlLlt) Ll d r|Lllll
 .  ||||(ln hllnlIIP c Ll h  IlhncP lllcll lllc (nlnLc, llnllt m ngPl
 Fln|Ll\, llydn rbLlrh, |rc lnlmFllln\l, cl| En\lll  |()l\ln t\llllFlhrc
 llllnlqEl \ dc ||| \lllllc) > ll T crrtt\ llllIFIUC
(...)

I then printed the png file, scaned it with Vuescan (Vuescan won't load 
pictures) and OCRed it with the integrated SimpleOCR tool, and got this:

La pollution de l'eau
Les type de pollution
On distingue plusieurs tyms de pollution. qui peuvent avoir (me origine 
domestiques agricole ou indus-
trielle.
* La pollution physique altère la transparence de l'eau (# usance de matines 
en susmnsion). agit
sur sa telnlzjwatum (mllution thel-mxh ue) ou sa radioactivité.
* La pollution chimique est due à des substances indésirables (nitrates, 
phosphates) txl dangereuse
(métaux. hydrtxaxl>ul'es. autres microBllluallts). qui plxwçxjtlent de 
plafonds déséquilibres
chimq' ues (acidité, salinité) ayant des effets biologiques.
* La allusion organique de l'eaux provenant des eaux usées tlornestxh ues et 
des industries agroali-
mentaires, provoque une stuxxlru<lmmation d'oxygène (nécexuire à sa 
dégradation) et (eut en-
traîner la mort de la vie aquatique. Elle peut également pnwç:xluer 
l'Apparition ou la mise en sole
tien de produits non désirables (métaux, ammoniac, sulfures).
* La pollution llkicrobiologxh ue introduit dans l'eau tues nziclo-cvganismess 
dont certains sont des
germes pathogènes (vil-us, bactéries)

There obviouly are may places to correct, but it's at least in part usable.

Now, Vuescan is not free. It seems simpleOCR is a royality free engine, so 
perhaps you should look if anyone else has implemented a linux version (the 
download is for Windows, but the code is available.

I paid for Vuescan and I don't regret it -it's also corssplatform. But I would 
welcome a free linux OCR - if it does work.

Thierry

On Wednesday 11 October 2006 18:48, Sylviane et Perry White wrote:
> (Follow up)
> Installation was easy but gocr gave me the following result:
> /*
> L'_ssn__ic_tiun l_i1ite puur 1_ 4_c_litė de 1_ _-_ie d_ns les EMS, et le
> druit _ 1_ di_gnitė des persunnes __gėes. E11e nr_gc_nise _n __entre
> d_nfnrt_c_tinn et pr_ne 1e */
(...)
> Just out of curiosity I may try to find out under what circumstances gocr
> really works.
>
> Any comments, list?
>
> Cheers 		Perry

-- 
Le monde est fait d'imbéciles
Qui se battent contre des demeurés
Pour sauvegarder une société absurde
                        Jean Yanne



More information about the kde-linux mailing list