Založením blogu nově pomáháte digitalizovat staré texty

4. března 2011 v 14:22 | Standa |  Novinky
Jednou z nenápadných změn představených minulý týden bylo nasazení reCAPTCHY u registrace nového blogu. K čemu je to dobré a co je to vlastně ta reCAPTCHA?


Základem systému reCAPTCHA je CAPTCHA, tedy test používaný na internetu k odlišení uživatelů od robotů. Test spočívá v tom, že uživatel musí jako povinný krok v nějakém formuláři opsat do příslušného políčka zdeformovaný text, který vidí na obrázku.

Přičemž se samozřejmě předpokládá, že robot to na rozdíl od člověka nezvládne, a tím se zamezí tomu, aby docházelo k zneužívání služby. Smyslem tedy je bránit se spamu, kterému musí čelit provozovatelé řady internetových služeb, včetně Blog.cz, který čelil v minulosti opakovanému zakládání blogů roboty.

ReCAPTCHA vychází z testu CAPTCHA, uživatel tedy opět opisuje nějaký text z obrázku. Na rozdíl od jednoduché CAPTCHY zde ale dochází k tomu, že se zabíjí dvě mouchy jednou ranou: služba se brání před roboty a uživatelé se nevědomky podílí na digitalizaci starých textů.

Na počátku reCAPTCHY totiž stála tato úvaha: když už musíme uživatele obtěžovat s opisováním nějakého textu z obrázku, proč toho nevyužít k dobrému účelu?

ReCAPTCHA proto využívá toho, že každý den miliony internetových uživatelů po celém světě opisují slova z obrázků, a tím pomáhají digitalizovat staré tištěné texty. Zjednodušeně si to představte asi takto:

Slova, která musí uživatel opsat z obrázku, jsou převzata přímo ze starých textů, které jsou skenovány a následně digitalizovány, aby se zachovaly pro příští generace. V tomto procesu je nutné převést každé slovo, které je zachyceno pouze na obrázku, do reálných písmen abecedy. Některá z těchto slov jsou ale pro počítače nečitelná a tudíž velmi obtížná k převedení do psaného textu. ReCAPTCHA proto vybírá tato slova a zobrazuje je uživatelům, kteří je ručně přepisují.


snímek obrazovky


Jak si ale můžete všimnout, uživatel neopisuje jenom jedno slovo, ale slova dvě. Jedno z nich je totiž bezproblémové - počítač ho již v minulosti přečetl - zatímco s tím druhým potřebuje pomoci. Uživatel nikdy netuší, které ze dvou opisovaných slov je právě to neznámé, a musí se proto soustředit, aby správně opsal obě slova. Při následné kontrole reCAPTCHA kontroluje, zda uživatel správně opsal slovo, které již bylo známé - pokud ano, pak se předpokládá, že uživatel opsal správně i druhé neznámé slovo, které bylo dosud nečitelné.

Stejné slovo se potom zobrazuje i dalším uživatelům, kteří ho rovněž musí opisovat, než se překročí dostatečná hranice stejných verzí. Systém následně usoudí, že jestliže určité množství uživatelů toto slovo opsalo tímto způsobem, pak je vysoce pravděpodobné, že slovo bylo opsáno správně. A tak pořád dokola, než se nahromadí všechna opsaná slova.

Závěrem dvě poznámky:

  1. ReCAPTCHA myslí i na zrakově postižené uživatele, kteří si mohou nechat slovo z obrázku přehrát.
  2. O nasazení reCAPTCHY na další místa na Blog.cz - např. ve formuláři pro přidání komentáře pod článek - již do budoucna neuvažujeme.

Další informace si můžete přečíst zde (v angličtině): http://www.google.com/recaptcha/learnmore
 

41 lidí ohodnotilo tento článek.

Komentáře

1 Dendomačiatko Dendomačiatko | Web | 4. března 2011 v 14:26

Pre mňa je to otravné, odpisovať ten text z obrázku.. Na druhú stranu chápem, že je to dobré ako ochrana pred robotmi.
Len tak pre zaujímavosť, plánujete to dať aj na blog.cz?

2 Marta Woitek Marta Woitek | Web | 4. března 2011 v 14:29

No já dva (skoro) neaktivní blogy zrušila,takže nemám potřebu hned zakládat nový :D Ale chápu,že je to nutný :-) Ale někdy mě to štve - někdy je to fakt nečitelný....

3 Maruška Maruška | Web | 4. března 2011 v 14:29

Někdy mi to dělá problém přečíst, co je  to za slovo, ale chápu, proč je to tak. A nejvíc mě naštve, když vyplním kdekoliv celou registraci, zadám špatné kód a jedu od znova :D

4 Cirrat Cirrat | Web | 4. března 2011 v 14:38

No jo, potíž je v tom, když si někdo založí spamblog vědomě a "živě", unplugged.

Pak jsou všechna opatření s captcha a recaptcha marný...

5 Kerria Kerria | Web | 4. března 2011 v 14:40

Mně tam chybí možnost: "Je to otravné, ale chápu to."
Ale teď alespoň vím, že to občas může být užitečné. Už se těším, až se podobným způsobem budou digitalizovat i historické dokumenty, třeba staré matriky. Ale to je asi utopie, bude muset stačit, že se zatím aspoň postupně scanují.

6 Kami Kami | Web | 4. března 2011 v 14:41

nahodou zas tak mi to nevadi ;)

7 Ann Taylor Ann Taylor | Web | 4. března 2011 v 14:43

No hlavně, že už o dalších přidávání toho neuvažujete, protože myslím, že by to dost lidí obtěžovalo a o komentáře by se přicházelo a navíc by to zdržovalo. Jinak jsem zvyklá opisovat text při stahování z uloz.to, jinak si nevzpomínám kde ještě jsem se setkala :)

8 Martin Martin | Web | 4. března 2011 v 14:43

Uvítal by som viac takýchto článkov, je skvelé, že ste to u nových blogov zaviedli. Niekedy len napr. mrknem vľavo v administrácii na počet vytvorených blogov a ten takmer milión, čo tam figuruje, je skutočne obrovské číslo. Snáď sa s týmto prispením ich rast obmedzí.

9 Brita Brita | E-mail | Web | 4. března 2011 v 14:44

Je to sice otrava, ale stačí jednou a pak už se to dělat nemusí. :D
Nevím, jestli se zakládá tolik blogů, aby se ta funkce s rozpoznáváním starých, nečitelných textů vyplatila. Kdybychom ale vzali v úvahu, že je to po celém světě, pravděpodobně, jo, možná to smysl má :)

10 Charlie Charlie | Web | 4. března 2011 v 14:47

Když to nemůžu přečíst, kliknu na jiný text nebo jak je to třeba u uloz.to
U té čtvrté možnosti máš asi chybu...a dáL to neřeším?

11 Cirrat Cirrat | Web | 4. března 2011 v 14:48

[9]: Podle toho anglickýho článku denně po celým světě přibývá tak 200.000.000 slov...

12 Žirafka Žirafka | Web | 4. března 2011 v 14:48

O nasazení reCAPTCHY na další místa na Blog.cz - např. ve formuláři pro přidání komentáře pod článek - již do budoucna neuvažujeme. - NAŠTĚSTÍ. Je to otrava, ale chápu, že takových spamů je dost. A že to k něčemu je? Tak to jste mě překvapili :D

13 Čip Čip | Web | 4. března 2011 v 14:51

Tak, teď si změňte ten nápis, že založení blogu zabere jen pět minut na "založení blogu vám zabere půl hodiny"...
Tím si odradíte nové blogery! :-D

14 Tarei Tarei | Web | 4. března 2011 v 14:53

Mě to ani moc nezajímá... prostě to napíšu a jedu dál :-)

15 MileynQa&SmileynQa MileynQa&SmileynQa | Web | 4. března 2011 v 14:57

mě to dcl vadí ztráta času ale chápu že se před "net robotama" musíme bránit... . :D

16 Venom Havránka Venom Havránka | E-mail | Web | 4. března 2011 v 14:57

O tomhle už jsem slyšela. Je to dobrá věc. Jen můj laický mozeček nechápe, zda není jednodušší ta slova rovnou opsat, když už si dávám tu práci s jejich výběrem a strkáním pod nos běžných uživatelů :-D Existuje totiž systém, který se sám učí. Tím pádem na první stránce dopisujete například 15 slov, na další už jen 11, potom 5 a dále a dále, až se program naučí všechno sám.

A když stroj dokáže slova přečíst nahlas, proč je nedokáže rozluštit? :D

17 Sakura Minamino / Tweedledee Sakura Minamino / Tweedledee | E-mail | Web | 4. března 2011 v 14:58

Řekla bych, že jsou mnohem otravnější věci :-)

18 Matt Matt | E-mail | Web | 4. března 2011 v 15:09

"Prosím hlásni u mě SBéčko, kuju..."

"Máš mocinky hezů bogís"

- Je nějaká captcha na tohle?

19 Lennie Heroin Lennie Heroin | E-mail | Web | 4. března 2011 v 15:14

tak to jsem netušil, zajímavé

20 Venom Havránka Venom Havránka | E-mail | Web | 4. března 2011 v 15:18

[18]: Na tohle je plamenomet.

21 Kerria Kerria | Web | 4. března 2011 v 15:19

[9]: Ono to není jen na blogu, ale prakticky na všech stránkách, kde se registruješ. A pak i na spoustě dalších, třeba inzertní servery.

[16]: Já myslím, že to tak funguje. Dovedeš si představit jaké obrovské množství dokumentů je dnes digitalizováno. Třeba digitalizace starých matrik - naskenovat jednu knihu trvá zhruba 1-2 dny, minimálně dva týdny dělají jednu obec.

22 Kerria Kerria | Web | 4. března 2011 v 15:22

[18]: Na to snad funuje blokování IP adresy. Od té doby, co jsem to začala používat jsou u mě takové komentáře zřídka.

23 Oficiální magazín portálu blog.cz Oficiální magazín portálu blog.cz | Web | 4. března 2011 v 15:23

zajímavé musím říci že jste na blogu hodně změnili :-)

24 Oficiální magazín portálu blog.cz Oficiální magazín portálu blog.cz | E-mail | Web | 4. března 2011 v 15:27

Stando mohl bych se zeptat jaká je historie blog.cz prosím chtěl bych o tom něco napsat do našeho magazínu. Odepiš prosím na email:-)

25 Atze Atze | Web | 4. března 2011 v 15:32

Člověk si postupem času zvykne ..

26 Petra Petra | Web | 4. března 2011 v 15:43

Tak to je dost vymakaná věcička :D

27 Ducii Ducii | Web | 4. března 2011 v 15:43

Páni hned jsem o něco chytřejší, to ale nci nemění na tom, že věčné opisování slov na některých webech mě nebaví,..:-)

28 Marky4 Marky4 | Web | 4. března 2011 v 16:08

To je chytrý, to takhle spojit dohromady. Někdy mě to opisování sice vadí, ale nedělám to zas tak často :-)

29 Bublinka Bublinka | Web | 4. března 2011 v 16:11

To je ale fikaná záležitost.
Ale... nebylo by možná od věci je zavést u nepřihlášených uživatelů při komentování...

30 Barča Barča | Web | 4. března 2011 v 16:26

[20]: To jo no :D
Mylsím si, že je to dobrá věc. Mě to nějak nevadí. Prostě to opíšu a je to :).

31 Dendomačiatko Dendomačiatko | Web | 4. března 2011 v 16:51

[18]: :D Presne, to by som na blogu hneď brala.

32 elcasa elcasa | 4. března 2011 v 17:00

mám otázku
jak ty slova můžou být nahraný když jednu z nich nepřečetl počítač?

33 Neriah Neriah | Web | 4. března 2011 v 17:36

V nejbližší době žádný nový blog zakládat nehodlám, ale jsem ráda, že je tam ta možnost kód přehrát, i když nevím, v jaké je to kvalitě.
V dnešní době sic existuje program, co si s kódem poradí, ale i tak je to pro zrakově postiženého uživatele dost velká komplikace. Když to ale není zavedeno v komentářích, hlavu si s tím nedělám... Chápu, že je to nutné, spíš jsem se ještě podivovala, že to tu zavedeno není, když na jiných serverech se s tím lze setkat v takové míře.

34 Tajemná Temnota Tajemná Temnota | E-mail | Web | 4. března 2011 v 17:39

Já sems se jednou přihlašovala do tolika blogů, že mi vylezl text nejste robot? :-D

35 Nika Nika | Web | 4. března 2011 v 18:14

Já osobně nechápu, co z toho ti spam-roboti mají...

36 Orlageddon Orlageddon | Web | 4. března 2011 v 18:22

Mě to opisovat i baví *uznalo se jí to, když napsala chthonic místo chronic a podobně*, jenom mě to trochu zpomaluje. :P Takže jsem volila, že mi to nijak zvlášť nevadí.

37 Evelin Evelin | Web | 4. března 2011 v 18:28

Ještě jsem neslyšela, že by se otravné opisování kódu dalo k něčemu využít; to je pozitivní.
Jen asi nechápu, jak to, že se dá to slovo přehrát, když předtím nebylo rozluštěné :D.

38 Taychi Taychi | Web | 4. března 2011 v 19:00

Mně by to nevadilo ani u komentářů. Tento týden mám čtyři spam komentáře...písmenka lomítks závorky. apod..

39 Vixy Vixy | Web | 4. března 2011 v 19:07

No, už když byla reCAPTCHA na facebooku jsem si všimla, že když napíšu víceméně nějaký polo-blábol tak mi to fb uzná. Dříve mě to otravovalo, ale někde mi to nevadí. No, ale třeba když stahuju film (nejsem žádnej pirát...) tak mě otravuje psát nějaké kódy...

40 TlusŤjoch TlusŤjoch | 4. března 2011 v 19:17

Otravuje to a někdy to ani nejde přečíst.
Ale líbí se mi, že to slouží zachování starých textů.

41 Shichiyou Shichiyou | 4. března 2011 v 19:59

A já jsem si vždycky říkala, že ta slova dávají až podezřele velký smysl :D

42 Vendy Vendy | Web | 4. března 2011 v 20:59

Setkala jsem se s tím a myslím, že je to docela otravné, hlavně když špatně napíšu jedno písmeno, a spadne mi tak celý komentář a nejde to vrátit.
Myslím, že je to docela zbytečné.

43 Skříteček2 Skříteček2 | Web | 4. března 2011 v 21:51

Osobně mi to tedy dost vadí a občas mám problém přečíst, co je na obrázku, proto uvítám možnost "vyměnit obrázek". Zkrátka chápu to a štve mne to.

44 Skříteček2 Skříteček2 | Web | 4. března 2011 v 21:52

A jinak jsem ráda, že to nehodláte zavézt u komentářů, protože pak bych jeden krátký komenář psala tak 10 minut =D

45 KadetJaina KadetJaina | Web | 4. března 2011 v 22:33

[44]: Ale víš, jaká by to byla krása proti reklamám... Nebavilo by je to furt opisovat, žádné reklamy, SB a tak dál, ááách *sen*

46 Margueritte Weinlich Margueritte Weinlich | Web | 5. března 2011 v 9:49

Myslím, že to je záslužná činnost. Navíc ve vztahu k nevidomým je opravdu nutné, aby fungovalo přehrávání captchy.

Osobně mi to nijak nevadí, já si to opíšu a když tím pomůžu, budu jen a jen ráda.

47 Misantrop Misantrop | Web | 5. března 2011 v 10:31

"...a uživatelé se nevědomky podílí na digitalizaci starých textů."
Ale kde jsou ty texty? V češtině určitě nejsou, těch je uboze málo, na rozdíl třeba od angličtiny, v níž je veřejně a zdarma přístupno on-line kdejaké literární dílo, na které si vzpomenete, kdežto u nás je skoro všechno takzvaně "chráněno" autorskými, případně překladatelskými či nakladatelskými "právy". Kde je však moje nezadatelné právo na svobodné šíření slova? Rozplynulo se v číchsi obavách o mizerný a nepoctivý výdělek. (Sám jsem byl kupříkladu nedávno donucen smazat z mého blogu výpisky z Thoreauových Toulek přírodou.) Proto se mi zdá, že tento systém (reCAPTCHA) snad opravdu pomáhá digitalizovat staré texty, avšak jen ty cizojazyčné, nikoli české.

48 zuzk& zuzk& | Web | 5. března 2011 v 15:43

to je dobrý :-D

49 Michaela Vančurová Michaela Vančurová | 5. března 2011 v 15:46

Až tźas tak mi to nevadí :D

50 TaziDra TaziDra | Web | 5. března 2011 v 15:54

Mě to nějak nevadí nový blog si vv budouvnu zajkládat nechci a ani jsem to moc nepochopila..tedy myslím,že jsem to pochopila,ale newím jestli správně..:)

51 Mrs. Koki Mrs. Koki | Web | 5. března 2011 v 18:24

Mě to taky moc nevadí, ale když se mi to ukáže 5× denně, tak už mám na to nervy :D.
Chápu, že je to obrana proti robotům, ale nepochopila jsem ty staré texty, nebo co to je 8-O
Jsem neutrál :-D

52 Nikolas Nikolas | E-mail | Web | 5. března 2011 v 20:14

Tento nápad se mi líbí :)
Ale osobně moc nemám opisování kódů v lásce. Když je to občas, tak mi to problém nedělá, ale kdyby to mělo být při každém psaní komentáře... (díky bohu - vám, že to tak není :) )

53 Chodiaca kreativita Chodiaca kreativita | Web | 5. března 2011 v 21:11

No teda, tento fakt ma priam dorazil :-) Skvelé, nevedela som o tom x)

54 Deadly Destiny Deadly Destiny | Web | 5. března 2011 v 21:34

Je vážně dobré digitalizovat texty - a tohle využití - díky tomu kolik lidí to opíše to alespoň něčemu pomáhá

55 Janah Janah | Web | 5. března 2011 v 22:51

To jsem netušila a moc se mi to zamlouvá. Teď už nebudu při vyplňování tak naštvaná.

56 lapis lapis | Web | 6. března 2011 v 14:20

Pomáhať digitalizovať knihy, to má byť jedným z dôvodov prečo si tu mám založiť blog ? Skôr by som sa zameral na budovanie komunity .... menej balastu a viac kvalitného obsahu. Ja viem že sa to nedá zo dňa na deň ale keď už predstavujete nejakú feature tak nech to stojí aspoň za to. Mne by sa naozaj hodilo taká možnosť, zobraziť moje komentáre za posledný deň/ týžden .... fakt preliezať históriu v prehliadači nie je ono, keď chcete diskutovať na viacerých blogoch ktorých adresy si moc dobre nepamatáte.

57 Sasanka Sasanka | 6. března 2011 v 15:29

Nechápu, jak všichni nadávají na opisování textů a nečitelnost. Když je to nečitelné, vždycky si můžete nechat slova vyměnit (stačí trochu koukat, vážení, a někde na to určitě to tlačítko najdete). Že je to ochrana proti robotům, to jsem věděla už dávno. Co jsem ale netušila, byla ta věc s přepisováním - to je jako když vaše třída dostane den volna za sběr papíru :D
Musíte to brát pozitivně a optimisticky. Když už musíte něco přepisovat, tak si třeba trénujte psaní všemi deseti. Zajímavé, že komentování všech možných kravin na facebooku vám nevadí (teď nemyslím všechny, každý ať si rozhodne, jeslti se ho to týká)

58 Sakura-chan Sakura-chan | E-mail | Web | 6. března 2011 v 16:26

Mě to příjde otravný, ale vím, že je to nutné :D

59 Gumeedek Gumeedek | Web | 6. března 2011 v 17:29

Bez práce nejsou koláče a když někdo něco chce, tak ať pro to něco udělá. Kdy v životě se nám poštěstí, aby k dosažení cíle stačilo pouze opsat text z obrázku? :D

60 Lily Newsova Lily Newsova | Web | 6. března 2011 v 18:28

Není to špatné ;-)

61 Infantility Infantility | Web | 6. března 2011 v 20:53

A co třeba s takovými "dementy" jako já, kteří občas ty texty nepřeluští :D
Ale jsem teď o něco chytřejší :)

62 ×Nelča× ×Nelča× | Web | 7. března 2011 v 21:38

Často jsou tyto texty nečitelné... Ale tento článek byl tak nechutně strašně moc nepochopitelný, že bych se neměla vyjadřovat. :-D  Něco málo však chápu. Díky za objasnění. :-)

63 tygricecici tygricecici | Web | 8. března 2011 v 18:29

je to dobrý sistém, ale nechápu, proč by si robot zakládal blog :-D

64 Ketly Ketly | 8. března 2011 v 21:55

[63]: Roboti (či Spamboti) zakládají "falešné" účty nebo stránky kvůli propagaci. Pokud znáš nějakou warez stránku (nejsem pirát jen se to hodí pro příklad) tak ve většině článku píše Spambot komentář že na "svém" webu má tuhle a tuhle věc taky na stažení. Takže tím pádem na to lidi kliknou a při troše štěstí si to stáhnou. "Většina" internetových firem (google, seznam, rapidshare,..) mají nějakého toho robota, který na ně upozorňuje a propaguje je. Taky nevím proč by si někdo jako googlu zakládal blog když je na tak vysokém postu ve světě :D Prostě pro reklamu a o tom vlastně je celý internet. ;-)

Hned jsem šťasná, že po přečtení jsem o trochu chytřejší a vím že když opisuju kód z obrázku, že ho neházím jen tak na skládku. Berte to pozitivně, uděláte dobrou věc a to že to je v angličtině? Řekněte mi kdo se chcete v budoucnosti obejít bez angličtiny? To je bezmála nemožné už teď ať už pracujete kdekoliv. Čeština a slovenština prostě nemají světovou váhu (až na to že čeština je jeden z nejtěžších jazyků světa) angličtina a čínština (jak mi omílá furt dokola brácha) jsou světové jazyky :D Takže se vemte číňana a hurá do ameriky! :D ;-) :-!

65 comme-tous-les-autres comme-tous-les-autres | Web | 16. března 2011 v 20:07

Někdy to opisuju desetkrát, to mě potom už štve, ale nějak to neřeším :P

66 Chloë Noir Chloë Noir | Web | 17. března 2011 v 9:19

Vie to byť trochu otravné, najmä ak sa človek ponáhľa a chce len narýchlo niekde hodit komentár a predným musí lustit nejaké pismenká :D
Ale ako chápem to.
Mimochodom...na krasna.z preco tiež nie je pri komentároch taka vymozenost ako zadať email a web? Som pártkrát videla komentár, ktorý ma zaujal a ktorého autora by som chcela kontaktovat, ale cakat, ci sa nahodou znovu vráti a odpise...to je blbe no..

67 jiribocek jiribocek | 20. března 2011 v 9:01

Pokud  nevíte kód. Můžete si ho obnovit. reCAPTCHA je velmi dobře vybavený proti např. 3DCAPTCHA

Komentáře jsou uzavřeny.


Aktuální články

Reklama