Muitas empresas têm a ideia de que começar iniciativas de Ciência de Dados, Machine Learning, Inteligência Artificial demanda muito tempo e dinheiro. Porém, dependendo da maturidade do negócio, começar pode não ser o monstro de sete cabeças que muitos acreditam, principalmente tendo em vista que existem diversas ferramentas open source (gratuitas) no mercado. Elas são de fácil uso e implementação, e algumas podem até ser instaladas em computadores ou notebooks. Porém, como este é um tema relativamente novo e as empresas ainda estão aprendendo a lidar com isso, vamos ver como você pode começar a trilhar o caminho para se tornar uma empresa Data Driven, isto é, movida a dados.

Primeiros Passos

Os primeiros passos não precisam de um grande investimento para serem dados. Com a explosão de ferramentas open source e computação em nuvem, que permite o uso variável de acordo com a necessidade do cliente, se tornar uma empresa Data Driven deixou de ser caro.

  1. Armazenamento: com armazenamentos em nuvem que custam de centavos a centenas de dólares por mês, é possível escolher um repositório que caiba no orçamento da empresa.
  2. Desenvolvimento: o cientista de dados usa majoritariamente duas linguagens de programação: Python ou R. Existem ótimas ferramentas gratuitas para se desenvolver nessas duas linguagens e ambas são suportadas pelas nuvens mais famosas no mercado. O que pode aumentar esse preço são ferramentas de desenvolvimento colaborativo para times de ciência de dados, assim como ambientes e ferramentas que automatizam certas partes do processo, deixando-o mais eficiente.
  3. Operacionalização: modelos mais básicos, que rodam algumas vezes por dia, podem ser operacionalizados utilizando apenas um computador, que pode estar alocado na nuvem ou no próprio ambiente do cliente. É claro que essa abordagem serve para uma etapa inicial como forma de provar valor desses algoritmos para área(s) da empresa. Seu custo pode aumentar dependendo de quantos modelos estão rodando ao mesmo tempo, qual a disponibilidade e escalabilidade que o modelo deve ter (por exemplo, se existirem muitas requisições, o computador deverá aumentar seu processamento para atender todas elas?), latência desejada, entre outros.
  4. Visualização: como modelos de Machine Learning são auxiliadores da tomada de decisão, é importante que seus resultados sejam dispostos de maneira visual, para que o usuário possa verificar suas respostas de maneira rápida.

Soluções de ciência de dados como um todo devem começar provando seu valor com ferramentais mais básicos e o processo de amadurecimento deve ocorrer com o tempo. Caso haja a necessidade ou intenção de contratar uma consultoria especializada, é recomendado buscar por uma empresa agnóstica a ferramentas, pois existem diversos tipos no mercado e não necessariamente uma será melhor do que a outra; a ideia é encontrar a que resolverá o problema de negócio da melhor maneira possível, se adequando à maturidade da empresa, infraestrutura e planejamentos futuros.

Armazenamento em Nuvem

O primeiro item que listamos é, talvez, o que as empresas mais buscam: devo ou não utilizar/integrar meus dados à nuvem? Antes de responder esta pergunta, vamos entender melhor sobre a nuvem.

O armazenamento de dados em nuvem é feito em serviços que poderão ser acessados de qualquer lugar do mundo, a qualquer hora, não havendo necessidade de instalação de programas. O acesso aos serviços e arquivos é remoto, através da Internet – daí a alusão à nuvem. O uso desse modelo (ambiente) é mais viável do que o uso de unidades físicas. Transferir os dados locais para a nuvem também é fácil: as empresas que fornecem armazenamento em nuvem já possuem funcionalidades para essa tarefa. E quais são as nuvens mais famosas do mercado?

Azure – Armazenamento de Blob

Escale ou reduza verticalmente usando a camada de armazenamento frequente, esporádico, de arquivos ou Premium (https://azure.microsoft.com/pt-br/services/storage/blobs/). Obtenha armazenamento em nuvem escalável e econômico para todos os seus dados não estruturados. Pague apenas pelo que usar e economize em comparação com as opções de armazenamento local. Escolha entre quatro camadas de armazenamento, dependendo da frequência com que você acessará os dados. Armazene dados sensíveis ao desempenho na camada Premium, dados acessados com frequência na camada de armazenamento frequente, dados acessados com pouca frequência na camada de armazenamento esporádico e dados raramente acessados na camada de armazenamento de arquivos.

Amazon S3

Armazenamento de objetos para armazenar e recuperar qualquer quantidade de dados de qualquer local (https://aws.amazon.com/pt/s3/). O Amazon Simple Storage Service (Amazon S3) é um serviço de armazenamento de objetos que oferece escalabilidade líder do setor, disponibilidade de dados, segurança e performance. Isso significa que clientes de todos os tamanhos e setores podem usá-lo para armazenar qualquer volume de dados em uma grande variedade de casos de uso, como sites, aplicativos para dispositivos móveis, backup e restauração, arquivamento, aplicativos empresariais, dispositivos IoT e análises de Big Data. O Amazon S3 fornece recursos de gerenciamento fáceis de usar, de maneira que você possa organizar os dados e configurar os controles de acesso refinados para atender a requisitos específicos comerciais, organizacionais e de conformidade. O Amazon S3 foi projetado para 99,999999999% de durabilidade e armazena dados para milhões de aplicativos para empresas de todo o mundo.

Benefícios

  • Performance, escalabilidade, disponibilidade e durabilidade líderes do setor
  • Grande variedade de classes de armazenamento econômicas
  • Recursos incomparáveis de segurança, conformidade e auditoria
  • Ferramentas de gerenciamento para controle de dados granular
  • Serviços de consulta no local para análises
  • Serviço de armazenamento em nuvem mais aceito

IBM Cloud Object Storage

Armazenamento em cloud flexível, econômico e escalável para dados não estruturados (https://www.ibm.com/br-pt/cloud/object-storage). O IBM Cloud™ Object Storage possibilita o armazenamento de quantias praticamente ilimitadas de dados, de maneira simples e econômica. Ele é comumente usado para o archive e backup de dados, para aplicativos da web e móveis e como armazenamento escalável e persistente para análises. As camadas de classe de armazenamento flexível com um archive baseado em política permitem que você gerencie os custos de forma eficaz ao atender às necessidades de acesso aos dados. A opção integrada de transferência de dados de alta velocidade do IBM Aspera® facilita a transferência de dados para e a partir do Cloud Object Storage, e a funcionalidade de consulta local permite executar análises diretamente em seus dados.

Por que IBM Cloud Object Storage?

O IBM Cloud Object Storage foi desenvolvido para suportar o crescimento exponencial dos dados e as cargas de trabalho nativas da nuvem. Com recursos integrados de transferência de arquivos de alta velocidade, ofertas entre regiões e serviços integrados, o IBM Cloud Object Storage pode ajudá-lo a utilizar seus dados com segurança.

Falamos das três maiores ferramentas para a nuvem, mas existem muitas outras (Cloudera por exemplo). Como você deve ter percebido, não existe uma que seja explicitamente superior a outra, todas têm suas vantagens e desvantagens dependendo da maturidade e problema de negócio que a empresa possui. O armazenamento é apenas um dos itens citados acima, ainda devemos levar em consideração outros igualmente importantes como a análise e visualização dos dados. Isso só reforça o que sempre aconselhamos: não seja preso a ferramentas específicas e, se for contratar uma consultoria especializada, busque uma que seja agnóstica a ferramentas, assim você terá o produto mais adequado à necessidade do seu negócio e não a “melhor ferramenta do mercado”.

Maturidade do Negócio

Falamos muito sobre a ferramenta/solução certa estar relacionada à maturidade de cada empresa, mas como saber qual a maturidade do seu negócio? Para finalizar, disponibilizamos um diagrama de maturidade do uso de dados que vai lhe ajudar a saber como a sua empresa está posicionada na busca para se tornar Data Driven.

 


Comentários: 0

Ainda não há comentários neste post. Seja você o primeiro a comentar!

Deixar um comentário