Sangue, suor, lágrimas… e números! Fazendo seu esforço de coletar dados valer a pena

Título dramático, não é? Mas a vida de um biólogo lato sensu* é mesmo muitas vezes cheia de drama e dificuldades. Pode ser aquele projeto de campo onde você bem literalmente sua, chora e sangra para coletar os dados da melhor maneira possível… Ou aquele trabalhão de laboratório que te exigiu horas e horas de sono perdidas e feriados sem descanso… Quase qualquer cientista em formação (ou já formado!) passa por isso com alguma frequência — coleta dados com afinco e dedicação. E depois de todo este esforço, depara-se com mais um momento tenso: a análise.

Esforço = Qualidade [SQN]

E este pode ser um momento verdadeiramente tenso! Nós, biólogos lato sensu, muitas vezes temos dificuldades, que vem lá da nossa formação inicial, em lidar com métodos estatísticos, gráficos e análise de dados. E aí o que acontece com aqueles dados que nos custaram tanto? Uma coisa é certa: depois de tanto esforço de coleta, seria um absurdo não trabalhar com eles da melhor maneira possível. Em situações de avaliação, então, como em bancas de conclusão de curso, a coisa pode ser muito sofrida. Na maioria das vezes, os avaliadores não vão pensar no esforço, e sim na qualidade do produto final…

Como lidar com isso? Há mais ou menos um ano, eu publiquei aqui no blog do IPÊ um texto falando sobre o aprendizado da Bioestatística usando o R, e em como esta ferramenta pode ajudar (e não dificultar, como muitos pensam!) o aprendizado. Se você não leu, depois dê uma conferida nele aqui. O que eu quero, agora, é continuar um pouco a conversa, e falar um pouquinho sobre como aprender o R, por mais que possa parecer uma tarefa difícil — e, acredite, é mais tranquilo do que parece — pode te ajudar a nunca mais deixar que o momento de analisar os dados seja um problemão para você.

O que é esse tal de R?

Acho provável que você já tenha uma noção, mas é sempre legal falar a respeito. O R é um programa de estatística. Certo, até aí tudo bem. Mas ele é um pouquinho mais do que isso… Na verdade, o R é um ambiente e linguagem de programação que foi criada pensando em aplicações estatísticas. E com um detalhe importante: ele foi desenvolvido como um software livre, de código aberto. E o que isso tudo quer dizer, você pergunta?!

Bom, na prática, para um usuário iniciante, isso significa que o R é gratuito, podendo ser usado por qualquer pessoa, para qualquer objetivo. Já lá no outro extremo, para os usuários experientes, programadores e pessoas interessadas em desenvolver métodos e ferramentas, o R funciona como uma caixinha de areia, onde métodos podem ser desenvolvidos e implementados. O que nos leva de volta para os usuários que estão apenas usando o programa, sem desenvolver: tudo o que é desenvolvido lá na ponta fica disponível para o usuário comum!

Universo em expansão

O esquema aqui, o que realmente nos interessa, é que o R é extremamente dinâmico, e está em constante desenvolvimento e expansão. Coisas novas são criadas, coisas antigas são aperfeiçoadas, e isso acontece em um ritmo bem rápido. O bacana de tudo isso é que qualquer pessoa pode entrar neste fluxo. Cabe o sujeito que sabe programar, mas também cabe a pessoa que quer apenas analisar aqueles dados lá de cima, coletados com muito custo. Ou seja: você.

O importante é ter em mente que não é necessário saber programar para usar o R. Sim, o uso dele é meio “diferentão” do que você pode estar acostumado. No lugar de diversos ícones e menus, você tem que escrever os comandos. Mas esta parte é bem menos complicada do que parece. As pessoas por trás do desenvolvimento, as que estão ali de fato programando, estão fazendo o trabalho bruto e deixando tudo prontinho para nós usarmos. E aí, o segredo é apenas aprender o caminho para aprender a usar esta ferramenta. Mas… por que aprender?

Por que aprender o R na Biologia?

Pois é, a pergunta é importante! Se você já lidou com algum programa de análise de dados, pode já ter esbarrado em alguns até bem amigáveis e fáceis de se usar. E muitos deles são excelentes, veja só! O problema não é a qualidade, facilidade de uso ou coisas assim. São as limitações…

Um programa típico de análise de dados tem um conjunto de coisas que ele “sabe” fazer. Os menus ou ícones vão te guiar por um conjunto de métodos, análises e gráficos, e é isto. Ele pode ser amplo e fazer um monte de coisas. Mas sempre pode existir algum método que precisamos usar. Ou um tipo de gráfico que precisamos fazer, que simplesmente não está ali. E, para o nosso azar, situações assim são mais frequentes do que nós gostaríamos.

A solução comum? Procurar mais um programa, aprender como ele funciona, e seguir adiante. Pode parecer besteira no começo, mas a tendência é que estas etapas se repitam… E, de tempos em tempos, você precisa aprender mais um programa e como ele funciona, para então poder fazer o que precisa. Com o tempo, isso pode ser uma limitação muito ruim, já que cada programa tem uma lógica de funcionamento diferente, formatos de entrada diferentes, gráficos com aspectos diferentes…

Workshop Online Gratuito sobre Bioestatística no R ➪

Um outro paradigma

Uma das coisas legais de usarmos o R é a centralização. Você domina um ambiente que está em constante expansão. A pergunta nunca é “será que o R faz o método X?”; e sim “como eu aplico o método X no R?”.

E sabe aquele detalhezinho do gráfico que o programa que você usava não deixava alterar? Pois é, no R vai haver alguma maneira de lidar com isso!

Mas isso é apenas o começo. Existem vários aspectos do R que tornam ele uma ferramenta muito vantajosa para análise de dados. Só para citar bem rapidamente (porque este texto já está ficando longo demais):

  • Ao usar o R, participamos de uma comunidade de usuários imensa e altamente engajada, que ajuda a resolver problemas e criar novas soluções;
  • Tudo que fazemos no R é facilmente reproduzível. As análises que aprendemos e usamos ficam registradas em scripts, que depois podem ser usados para repetir ou fazer novas análises, e servem de garantia como um registro de todos os passos usados;
  • Novos métodos, gráficos e análises são rapidamente incorporados ao ambiente do R, de forma que ao dominar esta ferramenta fica muito fácil se manter sempre acompanhado as novidades, sem ter que aprender e\ou adquirir novos programas.

E daria para continuar, mas acho que por enquanto já dá pra ter uma boa ideia. 😉

Workshop Online Gratuito sobre Bioestatística no R ➪

E como aprendo a usar? É difícil como falam?

Aprender o R pode ser um pouco estranho no começo. A maioria de nós está acostumada a usar programas com ícones e menus, e o ambiente de linha de comando pode assustar um pouquinho. Mas é muito mais uma questão de estranhamento, de superar uma pequena barreira de aprendizado inicial, do que dificuldade mesmo. Mais do que isso, como já falei naquele meu texto do ano passado, por incrível que pareça o R acaba é ajudando o aprendizado da estatística. O que, no fim, faz o seu aprendizado valer em dobro.

O resultado final, então, faz valer muito a pena um pequeno esforço inicial. É a autonomia, o domínio de uma ferramenta de análise que vai ter tornar independente para trabalhar com os dados que foram coletados com todo aquele esforço, suor, sangue e lágrimas.

Workshop Online Gratuito sobre Bioestatística no R ➪

* Biólogo lato sensu é aquele cientista ou profissional que não necessariamente é formado em Biologia, mas trabalha nesta área. Já conheci excelentes biólogos que eram na verdade Zootecnistas, Engenheiros Florestais, Agrônomos…

1 comentário


  1. Excelente texto, professor, parabéns! Abordagem fortemente significativa 😀

    Responder

Deixe uma resposta

O seu endereço de e-mail não será publicado. Campos obrigatórios são marcados com *