Bruno - Professor de programação - Rio de Janeiro

Bruno

Embaixador

  • Preço hora/aula R$120
  • Tempo de resposta 12h
  • Número de alunos 42
Pedir aulas

1a aula grátis!

1a aula grátis!

Curso

Análise de Dados (em R): Manipulação de Dados, Visualização de Dados, Modelos de Aprendizado Estatístico e Criação de Painéis e outros Artefatos de Visualização de Dados na WEB. Curso Remoto

    • Rio de Janeiro

Embaixador

É "la crème de la crème" dos professores. Perfil de qualidade, diploma verificado e resposta garantida. Bruno marcará sua primeira aula de Programação.

Apresentação

Duração : 24 horas de aula - Preço : R$4.00 - Local : Copacabana (22011-040)O curso é especialmente útil para quem trabalha com planilhas Excel para analisar dados e deseja mais eficiência, agilidade e flexibilidade (análise exploratória em tabelas dinâmicas, gráficos, relatórios, análise preditiva com modelos de aprendizado estatístico etc.)

Resumo das atividades incluídas:

- Importação de dados de diversos suportes: CSV, Excel, bancos de dados, páginas web, arquivos de entrada e saída de programas de terceiros e outros suportes estruturados e semiestruturados



- Organização dos dados em formatos que facilitam a análise



- Transformação dos dados para análises exploratórias com criação de métricas: médias móveis, quantis, agrupamentos, categorizações, filtros etc.



- Visualização de dados em gráficos e tabelas muito mais poderosos que os que podem ser gerados com o Excel



- Uso de Modelos de Aprendizado Estatístico a partir de bibliotecas que facilitam o trabalho de Seleção do Modelo com Cross-Validation e Avaliação da Performance do modelo escolhido fora da amostra usada na seleção



- Comunicação dos resultados através de documentos automáticos em formato profissional (relatórios, papers, notas técnicas, livros) e através de aplicações web, criadas direto no R, que podem ser usadas internamente ou publicadas na Internet.



- Tópicos avançados para criação de pacotes com testes automáticos e controle de versão, a fim de facilitar a manutenção dos projetos





Módulos:



A – Introdução, motivação e programação vetorial e funcional



Este módulo dá uma ideia geral do conteúdo do curso, ajudando o aluno a entender onde os conceitos de cada um dos outros módulos são usados. Ele também mostra como se usa a linguagem no ambiente integrado de desenvolvimento mais usado: RStudio. Além disso, o módulo mostra como funciona o caráter vetorial da linguagem, que é muito adequado às tarefas de análise de dados e mostra o conceito de programação funcional, que será muito usado nos outros módulos.



Aula 1 - Introdução ao R e seu caráter vetorial



- Apresentação da ementa do curso numa visão geral.

- Motivação: por que programar? Por que R?

- Apresentação do fluxo de trabalho de análise de dados

- Como usar o RStudio pra programar em R

- Diferença do R em relação às linguagens mais usuais. Caráter vetorial da linguagem



Aula 2 – Programação funcional



- O que é uma função

- O que é programação funcional?

- Como usar programação funcional

- Como usar programação funcional com paralelismo





B - Manipulação de dados



A obtenção e a organização dos dados é o conjunto de tarefas que demanda mais esforço do analista. Tanto uma boa análise exploratória quanto a montagem de um painel de visualização robusto dependem muito de agilidade na manipulação dos dados. Modelos de aprendizado estatístico também dependem muito de um processo de Feature Engineering ágil e bem feito. Feature Egineering é o processo de criar entradas para um modelo que vão torná-lo mais eficiente. Esse processo acontece exatamente com a manipulação dos dados originais.



Neste módulo o aluno vai aprender a obter os dados de páginas na Internet tanto destrinchando a estrutura das páginas quanto desenvolvendo scripts que atuam como robô nos sites. Vai poder também obter dados de planilhas Excel e PDFs. O aluno também vai aprender a organizar os dados de forma “tidy” de modo a facilitar muito a manipulação e a análise posterior.



Aula 3 – Manipulação de dados com tidyverse



- O que é um dataframe?

- Operações básicas de manipulação de dataframe usando as versões mais atualizadas das bibliotecas tidyverse

- Casos práticos de manipulação eficiente de dados



Aula 4 – Leitura de arquivos e páginas web



- Leitura de planilhas de forma eficiente

- Leitura de páginas web a partir da estrutura da página

- Criação de “robôs” para navegação em sites



Aula 5 – Manipulação de dados com pivoteamento, combinações e joins.



- Organização dos dados em formato tidy usando as versões mais atualizadas das bibliotecas tidyverse

- Combinação de vários dataframes para aplicações mais complexas



C - Visualização de dados



A biblioteca ggplot2 e seus agregados oferecem possibilidades muito variadas para criação de gráficos, mapas, animações etc. Neste módulo são apresentados os conceitos nos quais a ggplot2 é baseada (Gramar of Graphics). Também são ensinadas boas práticas para que os insights extraídos dos dados sejam comunicados com mais precisão e de forma mais agradável para o analista ou para leitor de um relatório ou usuário de uma aplicação.



Como a EPE lida bastante com dados espaciais, também há uma aula com os conceitos de dados geoespaciais e visualização destes dados





Aula 6 – Visualização de dados com ggplot2



- Boas práticas gerais
- Conceitos da Grammar of Graphics

- Estrutura de um gráfico na ggplot2 em camadas

- Montando um gráfico

- Escolhendo o melhor gráfico pra cada ocasião



Aula 7 – Visualização de dados com ggplot (continuação), bibliotecas adicionais ao ggplot


- Escolhendo o melhor gráfico para cada ocasião (continuação)

- Paletas de cores, tipos e usos

- Temas

- Formatação das escalas

- Extensões

- Animações (gganimate)

- Composição (patchwork)

- Anotações (ggpmisc, ggforce)




Aula 8 – Visualização e manipulação de dados geoespaciais


- Como é um dado geoespacial na biblioteca sf

- Sistemas de coordenadas e projeções

- ggplot2 para dados espaciais: ggmap

- biblioteca interativa para visualização de dados geoespaciais: leaflet







D – Aprendizado estatístico



A área de Aprendizado Estatístico (também chamada de Machine Learning ou às vezes até Inteligência Artificial) é abordada muitas vezes de forma mistificada demais ou muito focada no detalhamento matemático dos modelos.



A abordagem escolhida para este módulo é focada nos conceitos mais importantes do processo de aplicação dos modelos a casos práticos e no uso de um conjuntos de bibliotecas que facilita a implementação correta do processo.



O conhecimento destes conceitos e das ferramentas adequadas vai:

- evitar problemas comuns na aplicação destes modelos;

- possibilitar um poder maior de predição e maior eficiência, com uso de pré-processamento e feature engineering;

- ajudar na escolha do modelo mais adequado para cada aplicação;

- possibilitar, em alguns casos, inferência formal sobre a relação entre as variáveis;

- possibilitar uma avaliação mais realista da performance futura do modelo nos novos dados ainda desconhecidos.





Aula 9 – Introdução a conceitos de aprendizado estatístico


- O processo do aprendizado estatístico

- Conceitos de aprendizado estatístico

- Inferência x Predição

- Conceitos de inferência

- Predição

- Viés x Variância

- Overfitting

- Treino, validação, teste

- Seleção de modelo e Avaliação de modelo

- Cross-validation



Aula 10 – Aprendizado estatístico com uso do conjunto de bibliotecas Tidymodels


- Fluxo de trabalho na tidymodels

- Criando um modelo

- Alguns tipos de modelos (regressão linear, regressão logística, floresta aleatória...)

- Pré-processamento

- Alguns métodos de pré-processamento

- Avaliação dos modelos com reamostragem

- Calibração dos hiperparâmetros

- Estudo de caso



Aula 11 – Aprendizado estatístico com uso do conjunto de bibliotecas Tidymodels (continuação)

- Continuação da aula 10





E – Comunicação



O ecossistema de bibliotecas em linguagem R vem evoluindo muito no sentido de possibilitar a criação de artefatos que facilitam a publicação dos resultados das análises.



Neste módulo, o aluno vai aprender a usar o pacote Shiny para criar aplicações web usando menos HTML, CSS e Javascript. As aplicações possibilitam a disponibilização dos dados para que os usuários façam suas próprias análises exploratórias, melhorando muito a divulgação de dados que hoje é feita muitas vezes em publicações estáticas. As aplicações em Shiny também podem substituir com muitas vantagens o uso de planilhas de análise, pois

- oferecem muito mais poder de fogo para cálculos complexos, como modelos de aprendizado estatístico

- por serem implementadas em código oferecem análises reprodutíveis, diferentemente das análises em planilhas que normalmente precisam de muitos passos manuais

- são mais imunes a erros operacionais, pois há menos passos manuais

- oferecem todas as funcionalidades que foram vistas nos módulos anteriores



O aluno também vai aprender a gerar relatórios automáticos com o uso de RMarkdown, em HTML ou PDF/LaTeX. Isso vai aumentar a qualidade dos relatórios gerados pelos analistas, gerando documentos profissionais gerados por código. Os relatórios gerados por código são reprodutíveis, ou seja, o procedimento de atualização de um relatório com novos dados é feito automaticamente, evitando o procedimento de copiar e colar tabelas e figuras manualmente.



Com o Shiny e o Rmarkdown em conjunto é possível criar relatórios dinâmicos, que têm a estrutura de um relatório, em capítulos, texto corrido etc. mas possibilitam interação com o usuário através de dispositivos de filtro etc. característicos de uma aplicação WEB.



Aula 12 – Aplicações web com shiny (programação reativa, exemplo de aplicações simples)

- Uma aplicação mínima

- Programação reativa

- Shiny Modules

- Shiny dashboard



Aula 13 – Aplicações web com shiny (aplicações escaláveis com shiny modules, padrões mais comuns usados em aplicações shiny)

- Gráficos interativos com ggirafe

- Opções de tabelas

- DT

- reactable

- rhandsometable

- gt



Aula 14 – Relatórios em HTML, LaTeX e dinâmicos com RMarkdown

- Idéia do Rmarkdown: chunks de código + texto

- LaTeX/PDF

- Vantagens e limitações

- Tipos de documentos LaTeX

- Alguns comandos LaTeX

- Tabelas em LaTeX com a biblioteca kable

- HTML

- Tabelas que funcionam bem em HTML:

Gt

Reactable

- Relatório paginado com page.js

Relatórios dinâmicos: Shiny + RMarkdown





F – Engenharia de Sofware



À medida em que nossos códigos ficam mais complexos, eles também ficam mais difíceis de manter. Além disso começa a haver a possibilidade de que eles possam ser reutilizados por outros analistas e outras equipes.



A criação de pacotes e aplicações Shiny também exige uma série de cuidados: são artefatos que serão usados por outras pessoas, portanto devem ser confiáveis e performáticos. Uma aplicação Shiny normalmente roda junto com outras aplicações em um servidor, portanto se usar muitos recursos pode atrapalhar todas as aplicações que estão no servidor



Aula 15 – Boas práticas de design dos códigos em R/Tidyverse, Controle de versão e Criação de pacotes em R

- Algumas das boas práticas segundo o guia de design da equipe do tidyverse

- Como usar minimamente o controle de versão no nosso repositório AzureDevops

- Criação de pacote usando a biblioteca devtools



Aula 16 – Testes automáticos, Debug de scripts e aplicações Shiny e Avaliação da performance

- Testes automáticos usando biblioteca testthat

- Dicas para debugar um script ou uma aplicação shiny

- Como avaliar e resolver problemas de performance. Alguns problemas de performance comuns

matérias

  • Programação
  • Linguagens de programação
  • Python
  • +2

    Inteligência artificial

    R (Linguagem de programação)

línguas

  • Inglês
  • Português

níveis

  • Todos os níveis

Programa do curso

Esse curso já foi oferecido a grupos de analistas da Petrobras, Banco Modal, Accenture, Icatu, Previ, Light etc. O curso também foi dado in-house para a EPE (Empresa de Pesquisa Energética), Banco BBM, Bahia Investimentos e SPX Capital.

O curso ajudou a melhorar a eficiência dos processos de análise de dados em todas essas empresas

Informações práticas

  • Duração do curso : 24 horas de aula
  • Preço da capacitação : R$4.00
  • Local : Copacabana (22011-040)
  • Número máximo de alunos durante o curso : 30
  • Público-alvo : aulas para adultos
  • Um material de suporte para as aulas será enviado ao aluno
  • Um atestado do curso será entregue ao aluno
  • Vigência da capacitação : o ano todo

Tarifas

pacotes

  • 5h: R$500
  • 10h: R$800

webcam

  • 120R$/h

aulas grátis

  • 1h