Banco de dados e Inteligncia empresarial

  • Published on
    06-Dec-2015

  • View
    11

  • Download
    0

DESCRIPTION

Banco de dados e Inteligncia empresarial

Transcript

  • ( 4 )

    Gesto do Conhecimento Segurana e Gerenciamento de

    Banco dos Dados

  • Caro (a) aluno (a)!

    Esta unidade tem como objetivo proporcionar uma viso geral sobre banco de dados e algumas de suas carac-tersticas, como tambm apresentar as definies bsicas

    dos sistemas gerenciadores de banco de dados. A unida-de contempla tambm uma introduo aos conceitos de data warehouse e minerao de dados como elemento do processo de descoberta de conhecimento em banco de dados (KDD).

    Gesto do conhecimento

    Gerenciador de banco de dados

    Bancode Dados

    Modelagem

    Sistemas

    Data Warehouse

    Minerao Dados

  • 70

    Ban

    co d

    e D

    ados

    eIn

    telig

    nci

    a E

    mpr

    esar

    ial

    Bancos de Dados (BD) e Sistemas Gerenciadores de Bancos de Dados (SGBD) so um componente essencial na sociedade moderna, a maioria de ns encontra diariamente diversas atividades que envolvem alguma interao com um banco de dados. Por exemplo, quando vamos a um banco efe-tuar um pagamento, quando fazemos uma reserva em um hotel ou em uma companhia area, certo que essas ativida-des envolvero um sistema que estar acessando um banco de dados. At mesmo a compra de algum produto em super-mercado atualiza automaticamente o banco de dados que mantm o controle de estoque dos itens.

    Conforme Elmasri (2010), os bancos de dados e sua tec-nologia tm um impacto importante sobre o uso crescente dos computadores. Considerando negcios, comrcio eletrnico, engenharia, medicina entre tantas outras reas de conheci-mento, possvel afirmar que os bancos de dados possuem

    influncia crtica na operao dos mesmos.

    Sabemos que um banco de dados uma coleo de dados relacionados, representando algum aspecto do mundo real, representa uma coleo logicamente coerente de dados com algum significado inerente. So projetados e construdos

    para receber dados com uma finalidade especfica.

    Por outro lado, um sistema gerenciador de banco de dados uma coleo de programas que permite ao usurio criar e manter um banco de dados. O sistema gerenciador de banco de dados um conjunto de softwares de uso geral que facilita processo de definio, construo, manipulao

    e compartilhamento de banco de dados entre diversos usu-rios e aplicaes.

  • Ges

    to

    do C

    onhe

    cim

    ento

    Ba

    nco

    de D

    ados

    e G

    eren

    ciad

    or d

    e Ban

    co d

    e Dad

    os

    71

    Software para processar consultas e aplicaes

    Programas de aplicao e consultas

    Usurios e Programadores

    Definio do Banco de Dados Armazenado (Metadados)

    Banco de Dados Armazenado

    Software para acessar dados armazenados

    Sistema gerenciador de Banco de Dados

    Sistema de Banco de dados

    Acima apresentado um modelo conceitual simplificado

    de um ambiente de sistema de banco de dados com seus elementos, adaptado de Elmasri (2010).

    4.1

    Elementos do Sistema de Banco de Dados

    Definir um banco de dados envolve especificar os

    tipos, estruturas e restries dos dados a serem armazena-dos, por exemplo:

  • 72

    Ban

    co d

    e D

    ados

    eIn

    telig

    nci

    a E

    mpr

    esar

    ial

    Metadado: consiste na definio ou informao

    descritiva do banco de dados tambm armazenada pelo sistema gerenciador em forma de catlogo ou dicionrio.

    Construo: consiste no processo de armazenar os dados em algum meio controlado pelo sistema gerenciador.

    Manipulao: consiste na incluso de funes como consulta ao banco de dados para recuperar dados espe-cficos e atualizaes do banco de dados.

    Compartilhamento: consiste na definio das per-misses para que diversos usurios e programadores acessem o banco de dados de forma simultnea.

    Um programa de aplicao acessa o banco de dados ao enviar consultas ou solicitaes de dados ao sistema geren-ciador, uma consulta normalmente resulta na recuperao de alguns dados, uma consulta, tambm denominada de transa-o, pode fazer que alguns dados sejam lidos e outros, grava-dos no banco de dados.

    Outras funes importantes fornecidas pelo sistema gerenciador de banco de dados incluem proteo do banco de dados e sua manuteno por um longo perodo.

    A proteo inclui proteo do sistema contra defeitos ou falhas de hardware ou software e proteo de segurana contra acesso no autorizado ou malicioso.

    Um banco de dados de grande porte pode ter um ciclo de vida de muitos anos, de modo que o sistema gerenciador precisa ser capaz de manter o sistema, permitindo que ela evolua medida que os requisitos mudam com o tempo.

  • Ges

    to

    do C

    onhe

    cim

    ento

    Ba

    nco

    de D

    ados

    e G

    eren

    ciad

    or d

    e Ban

    co d

    e Dad

    os

    73

    Observe:

    O termo "Consulta" ou "Query" que originalmente significa uma pergunta ou uma pesquisa, usado livremente para todos os tipos de interaes com banco de dados, incluindo a modificao dos dados.

    Observe:

    - BD = Banco de Dados

    - SBD = Sistema de Banco de Dados

    - SGBD = Sistema Gerenciador de Banco de Dados

    Podemos observar que um sistema de banco de dados SBD contem o banco de dados BD e o sistema gerencia-dor de banco de dados SGBD.

    4.2

    Abordagem de Banco de Dados Caractersticas

    Diversas caractersticas distinguem a abordagem de banco de dados da abordagem muito mais antiga de progra-mao com arquivos.

    Saiba Mais- Um arquivo uma coleo de registros de dados que podem ou no estar ordenados.- Uma Aplicao um programa de software que possui uma finalidade especfica, por exemplo, calcular a nota total de um aluno.

  • 74

    Ban

    co d

    e D

    ados

    eIn

    telig

    nci

    a E

    mpr

    esar

    ial

    No processamento de arquivo tradicional, cada usu-rio define e implementa os arquivos necessrios para uma

    aplicao de software especfica como parte da programao da aplicao.

    Para explicar essa caracterstica Elmasri (2010) utili-za como exemplo uma aplicao de sistema escolar, nele um usurio, por exemplo, do departamento de registro acadmi-co, pode manter arquivo sobre alunos e suas notas.

    Os programas para imprimir o histrico escolar de um aluno e inserir novas notas so implementados como parte da aplicao.

    Um segundo usurio, por exemplo, o departamento de finanas, pode registrar as mensalidades e os seus pagamen-tos. Observe que embora ambos os usurios estejam interes-sados em dados sobre alunos, cada um deles mantm arqui-vos separados.

    Essa redundncia na definio e no armazenamento de

    dados resulta em desperdcio de espao e em esforos redun-dantes para manter dados comuns.

    De forma diferente, na abordagem de banco de dados, um nico repositrio mantm dados que so definidos uma

    vez e depois acessados por vrios usurios. Nos sistemas de arquivos, cada aplicao livre para nomear os elementos de dados independentemente.

    Ao contrrio, em um banco de dados, os nomes ou rtulos de dados so definidos uma nica vez, e usados repe-tidamente por consultas, transaes e aplicaes.

    As principais caractersticas da abordagem de banco de dados versus a abordagem de processamento de arquivo so as seguintes:

  • Ges

    to

    do C

    onhe

    cim

    ento

    Ba

    nco

    de D

    ados

    e G

    eren

    ciad

    or d

    e Ban

    co d

    e Dad

    os

    75

    Natureza de autodescrio de um sistema de banco de dados.

    Isolamento entre programas e dados e abstrao de dados.

    Suporte de mltiplas vises dos dados.

    Compartilhamento de dados e processamento de transaes multiusurio.

    natureza de autodescrio de um sistema de banco de dados

    Uma caracterstica fundamental da abordagem de banco de dados que o seu sistema contm no apenas o prprio banco de dados, mas tambm uma definio ou des-crio completa de sua estrutura e restries. A informao armazenada no catlogo chamada de metadados e descreve a estrutura do banco de dados.

    Isolamento entre programas e dados e abs-trao de dados

    Diferentemente dos sistemas de arquivos, em que os arquivos de dados esto embutidos nos programas de apli-cao, fazendo com que qualquer mudana em sua estrutu-ra exija alterao em todos os programas que acessam este arquivo, os programas que acessam os sistemas gerenciado-res de banco de dados (SGBD) no exigem tais mudanas, pois existe esta propriedade de independncia de dados do programa.

    Suporte de mltiplas vises dos dadosUm banco de dados em geral possui muitos usurios,

    cada um podendo exigir um ponto de vista (viso) diferen-te do banco de dados. Uma viso pode ser um subconjunto

  • 76

    Ban

    co d

    e D

    ados

    eIn

    telig

    nci

    a E

    mpr

    esar

    ial

    de banco de dados ou conter um dado virtual que derivado dos arquivos do banco de dados, mas no esto armazenados explicitamente. Isso importante, pois para o usurio o que importa a possibilidade e facilidade de mltiplas vises, no importando se os dados a que se referem esto armaze-nados ou se so derivados.

    Compartilhamento de dados e processa-mento de transaes multiusurio

    Para atender este conceito de multiusurio, o sistema gerenciador de banco de dados deve incluir um software de controle de concorrncia para garantir que vrios usurios, tentando atualizar o mesmo dado, faa isto de uma maneira controlada, de modo que o resultado destas atualizaes seja correto.

    Por exemplo, a reserva de um quarto de hotel sendo feita por vrios agentes. O sistema precisa garantir que um s agente vai fazer a reserva para uma nica pessoa. Esse tipo de aplicao denominada de Processamento de Transao Online tambm conhecido por OLTP (Online Transaction Processing).

    Saiba MaisO dicionrio de dados um arquivo que contm metadados, ou seja, dados dos prprios dados, do qual fazem parte as especificaes das estruturas de dados, regras e mtodos de acesso e outros detalhes necessrios implementao. Por outro lado, faz-se uso de uma Linguagem de Manipulao de Dados (LMD), cuja finalidade permitir que os usurios possam acessar ou manipular os dados organizados de acordo com um modelo especifico sobre os mesmos.

  • Ges

    to

    do C

    onhe

    cim

    ento

    Ba

    nco

    de D

    ados

    e G

    eren

    ciad

    or d

    e Ban

    co d

    e Dad

    os

    77

    4.3

    Arquiteturas de um Sistema Gerenciador de Banco de dados

    As primeiras arquiteturas usavam mainframes para executar o processamento principal e de todas as funes do sistema, incluindo os programas aplicativos, programas de interface com o usurio, bem como a funcionalidade dos SGBDs. Essa a razo pela qual a maioria dos usurios fazia acesso aos sistemas via terminais que no possuam poder de processamento, apenas a capacidade de visualizao.

    Conforme explica Gordon (2006), todos os processa-mentos eram feitos remotamente, apenas as informaes a serem visualizadas e os controles eram enviados do mainfra-me para os terminais de visualizao, conectados a ele por redes de comunicao.

    Como os preos de hardware foram decrescendo, mui-tos usurios trocaram seus terminais por computadores pes-soais (PC) e estaes de trabalho.

    No comeo os SGBDs usavam esses computadores da mesma maneira que usavam os terminais, ou seja, o SGBD era centralizado e toda sua funcionalidade, execuo de pro-gramas aplicativos e processamento da interface do usurio eram executados em apenas uma mquina.

    Gradualmente, os SGBDs comearam a explorar a dis-ponibilidade do poder de processamento no lado do usurio, o que levou arquitetura cliente-servidor.

  • 78

    Ban

    co d

    e D

    ados

    eIn

    telig

    nci

    a E

    mpr

    esar

    ial

    Alguns tipos de arquiteturas de SGBDs:

    Na arquitetura centralizada, existe um computador com grande capacidade de processamento, que o hospedeiro do SGBD, e emuladores para os vrios aplicativos.

    Os computa-dores pessoais trabalham em sistema stand--alone, ou seja, fazem seus processamentos sozinhos. No comeo, esse processamento era bastante li-mitado, porm, com a evoluo do hardware, tem-se hoje PCs com gran-de capacidade de processa-mento.

    Na arquitetura Cliente-Servidor, o cliente (front-end) executa as tarefas do aplicativo, ou seja, fornece a interface do usurio (tela, e processamento de entrada e sada). o servidor (back-end) executa as consultas no banco de dados e retorna ao cliente.

    Nesta arquitetura, a informao est distribuda em diversos servidores.Cada servidor atura como no sistema cliente-servidor, porm, as consultas oriundas dos aplicativos so feitas para qualquer servidor indistintamente. Caso a informao solicitada seja amntida por outro servidor, o sistema encarrega-se de obter a informao necessria, de maneira transparente para o aplicativo.

    Plataformas centralizadas

    Sistemas de Computador Pessoal

    Bancos de Dados Cliente-Servidor

    Bancos de Dados Distribudos

  • Ges

    to

    do C

    onhe

    cim

    ento

    Ba

    nco

    de D

    ados

    e G

    eren

    ciad

    or d

    e Ban

    co d

    e Dad

    os

    79

    4.4

    Vantagens no uso de Sistemas de Banco de Dados

    Como aprendemos no contedo j estudado, os siste-mas de banco de dados proporcionam algumas vantagens para as empresas quanto ao aspecto de utilizar as informa-es como vantagem competitiva. Na gesto do conhecimen-to importante que as informaes estejam disponveis de forma precisa e no momento certo para que decises corretas sejam tomadas.

    Abaixo so apresentadas algumas dessas vantagens com suas especificaes.

    Reduo ou Eliminao de Redundncias

    A redundncia ocorre quando um mesmo campo exis-te de forma simultnea em diferentes em sistemas. No sis-tema de banco de dados, os dados que eventualmente so comuns a mais de um sistema, so compartilhados por eles, permitindo o acesso a uma nica informao sendo consul-tada por vrios sistemas, eliminando, dessa forma, a privati-zao dos dados.

    Eliminao de Inconsistncias

    A inconsistncia ocorre quando um mesmo campo tem valores diferentes em sistemas diferentes. Portanto, como no sistema de banco de dados o armazenamento da informao est em um nico local, est garantido um nico valor para o dado em seu respectivo campo.

  • 80

    Ban

    co d

    e D

    ados

    eIn

    telig

    nci

    a E

    mpr

    esar

    ial

    Compartilhamento dos Dados

    Permite a utilizao simultnea e segura de um dado, por mais de uma aplicao ou usurio, independente da ope-rao que esteja sendo realizada.

    Deve ser observado apenas o processo de atualiza-o concorrente, para no gerar erros de processamento, por exemplo, atualizar simultaneamente o mesmo campo do mesmo registro.

    Restries de Segurana

    Define para cada usurio o nvel de acesso a ele conce-dido, por exemplo, consulta, consulta e gravao ou sem aces-so, ao arquivo e ou campo do banco de dados. Esse recurso impede que pessoas no autorizadas utilizem ou atualizem um determinado arquivo ou campo.

    Padronizao dos Dados

    Permite que os campos armazenados na base de dados sejam padronizados segundo um determinado formato de armazenamento, por exemplo, padronizao de tabela, con-tedo de campos entre outros, e ao nome de variveis seguin-do critrios padres preestabelecido pela empresa.

    Independncia dos Dados

    Representa a forma fsica de armazenamento dos dados no sistema de banco de dados e a recuperao das informaes pelos programas de aplicao. Essa recuperao dever ser totalmente independente da maneira com que os dados esto fisicamente armazenados.

  • Ges

    to

    do C

    onhe

    cim

    ento

    Ba

    nco

    de D

    ados

    e G

    eren

    ciad

    or d

    e Ban

    co d

    e Dad

    os

    81

    Manuteno da Integridade

    Permite que os campos armazenados no sistema de banco de dados sejam padronizados segundo um determina-do formato de armazenamento, por exemplo, padronizao de tabela, contedo de campos, entre outros. padronizado tambm o nome de variveis, seguindo critrios padres pre-estabelecidos pela empresa.

    4.5

    Modelagem de Dados

    Modelo de dados um conjunto de regras utilizadas para descrever os dados, seus inter-relacionamentos, bem como aspectos semnticos, ou seja, relativos aos seus signifi-cados e, restries de integridade. Os modelos de dados mais utilizados atualmente so o modelo relacional, o modelo enti-dade-relacionamento e o modelo orientado a objeto.

    Estes modelos so usados para descrever as estruturas dos dados nos nveis conceitual e externo. Em nvel conceitu-al executa-se o projeto conceitual (esquema conceitual, usan-do, por exemplo, o modelo entidade-relacionamento) e o pro-jeto lgico (esquema lgico, usando, por exemplo, o modelo relacional).

    Abaixo a lista dos principais modelos de dados:

    MODeLOS De DADOS

    EntidadeRelacionamento Redes

    Orientados a objetosRelacionalHierrquico

  • 82

    Ban

    co d

    e D

    ados

    eIn

    telig

    nci

    a E

    mpr

    esar

    ial

    4.6Viso Geral de Data Warehouse

    Conforme j estudamos, aprendemos que um Banco de Dados (BD) formado por uma coleo de dados relaciona-dos e, um Sistema de Banco de Dados (SBD) como um banco de dados e um software de banco de dados juntos. Um Data Warehouse (DW) tambm uma coleo de informaes bem como um sistema de suporte. Contudo, existe uma distino clara, ou seja, os bancos de dados tradicionais so transacio-nais, podendo ser: relacionais ou orientados a objetos ou em rede ou hierrquicos, enquanto que os data warehouses pos-suem a caracterstica distintiva de servir principalmente para aplicaes de apoio deciso. Os mesmos so otimiza-dos para recuperao de dados e no para processamento de transao de rotina.

    Como os data warehouses tm sido desenvolvidos em diversas organizaes para atender necessidades particula-res, no existe uma definio cannica para o terma, explica

    Elmasri (2010). Contudo os data warehouses so muito distintos dos bancos de dados tradicionais em sua estrutura, funciona-mento, desempenho e finalidade.

    W. H. Inmon tem sido reconhecido como o primeiro a utilizar o nome data warehouse (Armazm de Dados) e carac-terizou-o como uma coleo de dados orientada a assunto, integrada, no voltil, varivel no tempo par e como suporte s decises gerenciais.

    Os data warehouses oferecem acesso a dados para ana-lises complexas, descoberta de conhecimentos e tomadas de decises. Eles fornecem suporte para demandas de alto desempenho sobre os dados e informaes de uma organi-zao.

  • Ges

    to

    do C

    onhe

    cim

    ento

    Ba

    nco

    de D

    ados

    e G

    eren

    ciad

    or d

    e Ban

    co d

    e Dad

    os

    83

    4.7

    Caractersticas de um Data Warehouse

    Orientao por Assunto

    O dado inserido no Data Warehouse decorrente de um ambiente operacional, na grande maioria das vezes. O Data Warehouse sempre um armazenamento de dados transfor-mados, separados fisicamente do ambiente operacional e da

    fonte do dado utilizado na aplicao.As diferenas entre aplicaes orientadas por proces-

    sos e funes e as orientadas por assunto esto no contedo dos dados e no nvel de detalhes dos mesmos.

    No Data Warehouse so includos somente os dados que devem ser usados no processo de suporte deciso (DSS), tambm denominados de sistema de informao executiva (EIS), enquanto no ambiente operacional as aplicaes con-tm dados para satisfazer imediatamente as requisies que podem ou no ser usadas para anlise de suporte a deciso.

    Orientada por assunto

    Credibilidade dos dadosVariao no Tempo

    Localizao

    ParticionamentoIntegrao

    Granularidade No Volatilidade

  • 84

    Ban

    co d

    e D

    ados

    eIn

    telig

    nci

    a E

    mpr

    esar

    ial

    Integrao

    Os dados antes de estarem no banco do DW, geralmen-te encontram-se armazenados em vrios padres de codi-ficao, isso se deve aos inmeros sistemas existentes nas

    empresas, e que eles tenham sido codificados por diferentes

    analistas.Portanto, os mesmos dados podem estar em formatos

    diferentes. Por meio da integrao, padronizam-se em uma representao nica os dados de todos os sistemas que for-maro a base de dados do DW.

    Por isso, grande parte do trabalho na construo de um DW est na anlise dos sistemas operacionais e dos dados que eles contm.

    Variao no tempo

    Em um DW normal um horizonte de tempo bem superior ao dos sistemas transacionais, que exigem que as informaes armazenadas, excludas, atualizadas e consulta-das sejam em tempo de segundos.

    Isso bastante lgico porque num sistema transacional a finalidade de fornecer as informaes no momento exato, j

    no Data Warehouse, o principal objetivo analisar o comporta-mento das mesmas durante um perodo de tempo maior.

    importante considerar que os dados existentes em um DW so como fotografias (snapshots) e no podem ser atu-alizados, pois seus dados refletem um estado em um deter-minado momento do tempo, j nos sistemas operacionais os registros so atualizados constantemente.

    No Volatilidade

    No Data Warehouse existem somente duas operaes, a carga inicial e as consultas dos usurios finais (front-ends) aos dados. Isso pode ser afirmado porque a maneira como os

  • Ges

    to

    do C

    onhe

    cim

    ento

    Ba

    nco

    de D

    ados

    e G

    eren

    ciad

    or d

    e Ban

    co d

    e Dad

    os

    85

    dados so carregados e tratados completamente diferente dos sistemas transacionais.

    Enquanto nesses sistemas temos vrios controles e atu-alizaes de registros, em um DW, tem-se somente insero e consulta de dados.

    Deve-se considerar que os dados sempre passam por filtros antes de serem inseridos no DW. Uma vez que partici-pam de um ambiente de DW, os dados so dispostos de forma diferente representao de um sistema transacional.

    Sobre a no volatilidade Inmon afirma: Em outras

    palavras, a maior parte dos dados fsica e radicalmente alte-rada quando passam a fazer parte do DW. Do ponto de vista de integrao, no so mais os mesmos dados do ambiente operacional. luz destes fatores, a redundncia de dados entre os dois ambientes raramente ocorre, resultando em menos de um por cento de duplicaes.

    Localizao

    Os dados em um DW podem estar fisicamente armaze-nados em funo de dois conceitos:

    a) Centralizada em um nico local, o banco de dados (BD) supre informao a um DW integrado, e desta forma maximizando o poder de processamento e agili-zando a busca dos dados. Esse tipo de armazenamento utilizado frequentemente, porm existe a inconveni-ncia de investimentos em hardware para comportar a base de dados muito volumosa, e o poderio de proces-samento elevado, a fim de atender satisfatoriamente as

    consultas simultneas de muitos usurios.

    b) Distribudo em vrios locais, o armazenando das informaes realizado por reas de interesse. Por exemplo, os dados da gerncia financeira num servi-

  • 86

    Ban

    co d

    e D

    ados

    eIn

    telig

    nci

    a E

    mpr

    esar

    ial

    Ambiente Operacional

    Aplicao A: 0,1Aplicao B: M,FAplicao C: H,M

    A diferena dos dados num Sistema Operacional e no Data Warehouse

    Data Warehouse

    M, F

    dor, dados de marketing em outro e dados da conta-bilidade em um terceiro lugar. Essa viso tende a ser uma opo interessante para quem precisa de bastante desempenho, pois dessa forma minimiza a sobrecar-ga de um nico servidor, e as consultas sero sempre atendidas em tempo satisfatrio.

    Particionamento

    O particionamento dos dados a repartio dos dados em unidades fsicas separadas que podem ser tratadas de forma independente.

    Credibilidade dos Dados

    Para manter a credibilidade importante procurar sempre evitar dados que no sejam provenientes de fontes seguras, pois estes dados geram relatrios de m qualidade, prejudicando a tomada de deciso e causando altos riscos para a tomada de deciso de um negcio.

    Operacional

    atualizao

    insero

    consulta

    carga consulta

    Data Warehouse

    excluso

    Na figura acima so apresentadas as formas de operao que ocorrem nos Sistemas Transacionais e no Data Warehouse. Observe que no DW no ocorrem atualizaes e excluses.

  • Ges

    to

    do C

    onhe

    cim

    ento

    Ba

    nco

    de D

    ados

    e G

    eren

    ciad

    or d

    e Ban

    co d

    e Dad

    os

    87

    Granularidade

    A granularidade definida no ambiente de DW, como

    o nvel de detalhe ou de resumo dos dados existentes num Data Warehouse. Quanto maior for o nvel de detalhes, menor ser o nvel de granularidade, ou seja, um DW com informa-es sintticas ser reconhecido por seu alto ndice de granu-laridade. O nvel de granularidade afeta diretamente o volu-me de dados armazenados no DW, e ao mesmo tempo o tipo de consulta e a velocidade de resposta.

    4.8

    Conceitos de Minerao de Dados

    Em relatrios como o popular Gartner Report a mine-rao de dados tem sido aclamada como uma das principais tecnologias para o suporte nas tomadas de deciso. Induzido pelo prprio nome, a minerao de dados consiste em desco-brir, ou minerar, novas informaes em termos de padres

  • 88

    Ban

    co d

    e D

    ados

    eIn

    telig

    nci

    a E

    mpr

    esar

    ial

    ou regras com base em grandes quantidades de dados. Para ser til na prtica, a minerao de dados precisa ser executa-da de modo eficiente em grandes arquivos e banco de dados.

    vasto o campo da minerao de dados que utiliza tecnologias avanadas na elaborao de softwares tais como, aprendizado de mquinas, redes neurais e algortmos genricos.

    A minerao de dados pode ser usada junto com os Data Warehouse (DW) para ajudar com certos tipos de deci-so, pode tambm ser aplicada a Banco de Dados operacio-nais (BD) com transaes individuais.

    Para tornar a minerao de dados mais eficiente, o DW

    deve possuir uma coleo de dados agregada ou resumida. A minerao ajuda na extrao de novos padres significa-tivos que no podem ser necessariamente encontrados ape-nas ao consultar ou processar dados ou metadados no data warehouse.

    Portanto as aplicaes de minerao de dados devem ser fortemente consideradas desde cedo, juntamente com o projeto do DW.

    4.9

    Minerao de Dados e a Descoberta do Conhecimento (KDD)

    A descoberta do conhecimento nos banco de dados conhecida como KDD que abreviao de Knowledge Dis-covery in Databases e normalmente mais abrangente que a minerao de dados. O processo da descoberta do conheci-mento compreende seis fases:

  • Ges

    to

    do C

    onhe

    cim

    ento

    Ba

    nco

    de D

    ados

    e G

    eren

    ciad

    or d

    e Ban

    co d

    e Dad

    os

    89

    Limpeza e Integrao de Dados.

    Seleo e Transformao de Dados.

    Minerao de Dados.

    Avaliao dos padres.

    Exibio do Conhecimento Descoberto.

    Aes.

    A figura a seguir apresenta o modelo do Processo de

    Descoberta de Conhecimento em Banco de Dados (KDD):

    Portanto, a minerao de dados a etapa em KDD, res-ponsvel pela seleo dos mtodos a serem utilizados para localizar padres nos dados, seguida da efetiva busca por padres de interesse numa forma particular de representa-

  • 90

    Ban

    co d

    e D

    ados

    eIn

    telig

    nci

    a E

    mpr

    esar

    ial

    o, juntamente com a busca pelo melhor ajuste dos parme-tros do algortmo para a tarefa em questo.

    A cada dia, as bases de dados das organizaes vm assumindo maiores propores, e extraindo informao til, a partir dessa grande quantidade de dados passou a ser uma tarefa fundamental. Infelizmente, a extrao realizada ape-nas por consultas rotineiras dos usurios no mais satisfaz a esta necessidade e so necessrias outras formas de extrao para que informaes sejam descobertas a partir desta massa de dados, principalmente aquelas ocultas, imperceptveis intuio ou aos olhos humanos.

    Conforme observa Mendona (2002), nesse cenrio a minerao de dados surgiu como uma soluo extremamente til s organizaes que querem melhor explorar a informa-o que possuem em seus repositrios de dados.

    Um claro exemplo de minerao de dados o caso de um distribuidor de produtos, que a partir de sua base de dados com informaes sobre seus clientes e as compras dos mesmos, pode traar perfis de grupos de clientes, e at mesmo

    de cada cliente individualmente, classificando-os como dese-jar, por exemplo, frequncia nas compras.

Recommended

View more >