domingo, 24 de junho de 2018

As Métricas Mais Populares para Avaliar Modelos de Machine Learning


Durante o processo de criação de um modelo de machine learning nós precisamos medir a qualidade dele de acordo com o objetivo da tarefa. Existem funções matemáticas que nos ajudam a avaliar a capacidade de erro e acerto dos nossos modelos.
Tão importante quanto saber escolher um bom modelo, é saber escolher a métrica correta para decidir qual é o melhor entre eles.
Existem métricas mais simples, outras mais complexas, algumas que funcionam melhor para datasets com determinadas características, ou outras personalizadas de acordo com o objetivo final do modelo.
Ao escolher uma métrica deve-se levar em consideração fatores como a proporção de dados de cada classe no dataset e o objetivo da previsão (probabilidade, binário, ranking, etc). Por isso é importante conhecer bem a métrica que será utilizada, já que isso pode fazer a diferença na prática.
Nenhuma destas funções é melhor do que as outras em todos os casos. É sempre importante levar em consideração a aplicação prática do modelo. O objetivo deste artigo não é ir a fundo em cada uma delas, mas apresentá-las para que você possa pesquisar mais sobre as que achar interessante.

http://mariofilho.com/as-metricas-mais-populares-para-avaliar-modelos-de-machine-learning/

By  MARIO FILHO
Data Scientist | Machine Learning Consultant | Kaggle Grandmaster

Google’s AutoML will change how businesses use Machine Learning


Google’s AutoML is a new up-and-coming (alpha stage) cloud software suite of Machine Learning tools. It’s based on Google’s state-of-the-art research in image recognition called Neural Architecture Search (NAS). NAS is basically an algorithm that, given your specific dataset, searches for the most optimal neural network to perform a certain task on that dataset. AutoML is then a suite of machine learning tools that will allow one to easily train high-performance deep networks, without requiring the user to have any knowledge of deep learning or AI; all you need is labelled data! Google will use NAS to then find the best network for your specific dataset and task. They’ve already shown how their methods can achieve performance that is far better than that of hand-designed networks.
AutoML totally changes the whole machine learning game because for many applications, specialised skills and knowledge won’t be required. Many companies only need deep networks to do simpler tasks, such as image classification. At that point they don’t need to hire 5 machine learning PhDs; they just need someone who can handle moving around and organising their data.

New in TensorFlow 1.4: converting a Keras model to a TensorFlow Estimator



TensorFlow’s 1.4 release brings many new features — one of our favorites is support for converting a Keras model to a TensorFlow Estimator via the model_to_estimator() method.
Why would you want to do this? By wrapping your Keras code in a Estimator, you can serve predictions using TensorFlow Serving or deploy your model on Cloud ML Engine, a managed service for training and serving your TensorFlow models at scale. Using a TensorFlow Estimator, you can also take advantage of distributed training on your own cluster.
In this post, we’ll update the code we wrote in the article building a text classification model with Keras. If you haven’t read that blog post, we used Stack Overflow data from BigQuery to train a model to predict the tag of a Stack Overflow question. To jump to the code, find the full Jupyter notebook for this blog post here.

By Sara Robinson and Josh Gordon, Developer Advocates

Bibliotecas para Ciência de Dados


 O Cientista de Dados Igor Bobriakov publicou um excelente post no site Data Science Central (ponto de encontro de Cientistas de Dados em todo mundo) sobre as principais bibliotecas Python para Data Science. O post original está em inglês, mas trazemos aqui para você a versão em português. Confira as Top 20 Bibliotecas Python Para Data Science.

A Linguagem Python continua a assumir posições de liderança na solução de tarefas e desafios em Data Science. A seleção das bibliotecas está separada por categorias e a maioria delas já são estudadas no curso gratuito Python Fundamentos Para Análise de Dados.

Bibliotecas Principais e Estatísticas

1. NumPy
2. SciPy
3. Pandas


Visualização

6. Seaborn
8. Bokeh 
9. Pydot


Machine Learning


11. XGBoost LightGBM / CatBoost 
7. Plotly
12. Eli5

Deep Learning

13. TensorFlow 
14. PyTorch
15. Keras


Distributed Deep Learning



Processamento de Linguagem Natural


17. NLTK 
18. SpaCy
19. Gensim

Data Scraping


20. Scrapy 



Ao lado do nome da biblioteca você encontra o total de commits no Github e o total de colaboradores.
Python

http://datascienceacademy.com.br/blog/top-20-bibliotecas-python-para-data-science/

Referencia: MEDIUM
Traduzido do original em inglês: https://www.datasciencecentral.com/profiles/blogs/top-20-python-libraries-for-data-science-in-2018