BUSCA?

. Você ja se perguntou como funciona os mecanismos de busca da Internet.

busca01

como que uma palavra dentro de um buscador é redirecionada a links com o conteúdo que você procurava, então hoje falaremos um pouquinho sobre isso neste post.

Palavra Chave

Quando você inicia uma busca pela internet e  digita em um buscador um tema a ser pesquisado, ele  pega aquela “palavra chave” e faz uma varredura pela web procurando por paginas que contenham essa palavra. Analisando pagina por pagina ele forma um PageRAnk(Rank de paginas) e disponibiliza  os links mais relevantes na sua tela.Mas como ele sabe o que é mais relevante pra você? o software que faz essa varredura se chama Web Crawler ou Web spider a varios nomes dado a esse software, pois bem, ele  ao visitar as paginas ele procura por essa palavra dentro delas, quantas vezes ela aparece dentro da mesma pagina, se esta presente na URL ou no titulo da pagina, através de links relacionados, assim ele seleciona as paginas mais relevantes e as ranqueia pra você.

Mecanismos de busca

Existem alguns mecanismos de busca que são mais conhecidos como o Google,Yahoo e Bing basicamente eles funcionam da mesma forma porem eles tem suas diferenças, isso se nota quando você digita a mesma palavra em navegadores diferentes e eles não apresentam o mesmo resultado os SERPS, que  é pagina que apresenta os resultados procurado na   internet, normalmente elas se apresentam com o titulo da pagina,link seguido de duas linhas de texto sobre o tema pesquisado e mais uma linha com opções como cache da pagina versão alternativa ou tradução.

O Google hoje é o principal buscador da web, ele apresenta uma forma de busca diferente que o torna mais eficiente. O Google lança um software crawler visitando bilhões de paginas, então elas seguem os links nelas  que apontam  para uma outra pagina e vão seguindo os links dentro delas para outras e assim consecutivamente,e depois de visitar uma boa parte das paginas , ele  as indexa em suas maquinas , então quando você faz sua busca no Google na verdade você esta fazendo uma busca no índice da Google.

Quando você digita uma palavra no Google ele ira analisar entre essas bilhões de paginas armazenadas fazendo perguntas  como: quantas vezes a palavra chave aparece na pagina,se essa palavra aparece no endereço(URL)se estão juntas , se as paginas contêm sinônimos da palavra,se  as paginas são de sites confiáveis,são por volta de 200 perguntas,  assim ele vê quantos links apontam para mesma pagina e o grau de importancia dos links e determinam o raking das paginas, tudo isso em 1/8 segundos, tornando a Google o maior buscador da atualidade

Metadados

São dados sobre outros dados,  este nome foi criado por Jack Myres  em 1969 que serve para fornecer informações básicas ex: autor de uma obra,livro, links para trabalhos relacionados , datas de  criação e  etc. Quando você posta uma foto na internet por exemplo, ela pode conter informações sobre  de que tipo de câmera foi tirada, o numero da foto, com quem você estava na foto, a que horas ela foi tirada, aonde foi tirada ,são informações de informações. Os metadados auxiliam nas pesquisas, pois os mecanismos de buscas utilizam eles para achar informações condizentes com a palavra chave , porem eles não se aplicam somente as bibliotecas digitais mas também em bibliotecas tradicionais,como dados bancários e etc, os metadados servem para estruturar as informações de uma maneira organizada para uma melhor manutenção da mesma, eles não servem somente para serem interpretados por maquinas mas por também usuários, desta forma eles devem conter apenas informações necessárias para descrever o dado. Na internet eles podem ser o assunto,o remetente de um e-mail,endereços dos sites visitados,descrição sobre as paginas entre varias coisas. Quem acompanha as noticias e viu  caso do ex agente da CIA Edward Snowden percebeu o tamanho da importância de um metadado.

Imagens

A vários formatos de imagem,cada uma tem sua utilidade,  as mais conhecidas são as JPEG, PNG, GIF, BITMAP.

JPEG ou JPG-Joint Pictures Expert Group, permite16 milhões de cores,  utilizado muito na web para fotos, porem não recomendado para área profissional por não ter transparência dificultando  a edição. este formato perde  muita qualidade  quando é diminuído o seu tamanho.

GIFGraphics Interchange Format,permite 256 cores , mais utilizado em animações, já foi muito utilizado porem por conta de processos por direitos autorais perdeu espaço para o PNG, ambas possuem formatos que permitem uma melhor edição na criação de logos e animações como essa aqui em baixo:

animatrix9za

BITMAP ou BMP- Mapa de bits,desenvolvido pela Microsoft ela armazena  os pixels em quadrados, porem não é  um formato recomendado para envio na internet pois torna a internet lenta, este formato perde quando seu tamanho é editado  mas  fica bom na sua  impressão original.

VETORIAL (SVG)- AS imagens vetoriais são definidos  por formulas matemáticas assim não perde sua qualidade quando aumentado diferente dos outros formatos, porem não é boa com fotografias  já  que se utiliza formulas matematicas para se construir uma imagem vetorial ex:

exvetorial

A maquina compreende essa formula e monta a imagem, isso define a imagem vetorial ela não é formada por pixels

A varios formatos de imagem além desses mas esses  são os mais utilizados e conhecidos.

Uma imagem vale mais que mil palavras,não na internet , porque os mecanismos de busca utilizam  muito dos metadados sobre as imagens porem hoje tem mecanismos mais eficientes,exe do OCR (Optical Character Recognition) reconhecimento óptico de caracteres,capaz de  ler a imagem em si.

OCR

É um mecanismo que permite  converter arquivos como imagem e textos de livros para dados, pra que posam  ser editados para poderem ser usados como fontes de pesquisa na internet. O OCR faz isso, ele separa letras de imagem formando palavras e textos para que você  edite, esses sistemas são usados em scanners para substituir  a digitação manual, porem a alguns textos estão comprometidos pelo tempo ou pelo mau uso e dificulta esse mecanismo pois ele não consegue distinguir um “borrão” em cima de uma letra e acaba por interpretar errado a escrita, foi assim que surgiu o reCaptcha.

Captcha

O captcha surgiu depois de um problema onde serviços de e-mail como os do Yahoo e o da Microsoft estavam sofrendo ataques de hakers através de spam. Esses serviços  permitiam um numero máximos de emails enviados por conta, então para que pudessem enviar os spam precisavam criar varias contas de e-mail, fizeram um programa para criarem varias contas e enviarem vários spam,a solução para isso foi  o captcha , um programa onde separasse um humano de um robô, colocando imagens de textos distorcidos  ex:

captcha01

este tipo de texto com imagens distorcidas os programas não podem compreender,isso ajudou muito com o problema do spam.

mas e o reCaptcha? pois bem, perceberam que eram digitados 200 milhões de captcha por dia, foram ai que tiveram a ideia de usar o captcha para outros fins de forma a contribuir para nosso proprio beneficio. Criaram o reCaptcha.

reCaptcha

Serve para digitalizar livros de varia bibliotecas pelo mundo,assim como jornais e vários tipos de documento.

Ele funciona da seguinte forma, para que nos possamos ter acesso a esses livros, primeiramente são escaneados, depois passam pelo processo do OCR do qual ja falamos la em cima do post, porem a palavras que o sistema de OCR não consegue entender, por serem de livros e documentos muito antigos. O reCaptcha disponibiliza essas palavras para nos interpretalas e digitarmos corretamente, assim o sistema guarda em seu banco de dados e utiliza para digitalizar os textos. Normalmente os reCaptcha aparecem com 2 palavras, onde uma é palavra chave que vai te dar acesso e a outra é para ajudar na digitalização ex:

captcha02Agora saber qual é qual, ai é  outra coisa rs

podemos concluir que eu e você contribuimos de forma indireta para a digitalização de milhares de livros.

hoje este sistema reCaptcha pertence a Google, o que não é nenhuma surpresa já que quem mais se da bem com isso são eles.

e aqui nos despedimos de mais um post. obrigado!

referencias:

http://bsf.org.br/2010/02/04/recaptcha-digitalizacao-ocr-luis-von-ahn-pop-tech/

http://www.oficinadanet.com.br/artigo/php/o-que-e-recaptcha-e-como-funciona

http://www.hardware.com.br/termos/ocr

http://www.youtube.com/watch?v=SxkkFJI9u_I

http://www.google.com/insidesearch/howsearchworks/thestory/

http://www.buscatematica.net/busca.htm

http://www.gimpbrasil.org/2009/06/diferencas-de-compressao-qual-o-melhor.html

http://info.abril.com.br/forum/viewtopic.php?t=2518

Marcado com:
Publicado em Uncategorized

Deixe um comentário

Preencha os seus dados abaixo ou clique em um ícone para log in:

Logotipo do WordPress.com

Você está comentando utilizando sua conta WordPress.com. Sair /  Alterar )

Foto do Google

Você está comentando utilizando sua conta Google. Sair /  Alterar )

Imagem do Twitter

Você está comentando utilizando sua conta Twitter. Sair /  Alterar )

Foto do Facebook

Você está comentando utilizando sua conta Facebook. Sair /  Alterar )

Conectando a %s

%d blogueiros gostam disto: