Recap 2# Ce que j'ai lu sur le Deep Learning cette semaine (Documentation, SQL, Conditional Filtering dans Pandas et ChatGPT encore)
Namaste 🙏
C’est certainement pas le bon jour avec ces fêtes pour partager mes lectures de la semaine mais l’intelligence artificielle n’attend pas.
Avant toute chose, j’ai lu le livre d’Idriss Aberkane et j’ai noté un truc par rapport à mon apprentissage en autodidacte du Deep learning. Ça ne fait jamais de mal de le rappeler :
à quiconque voudrait exceller, je donne le même conseil : aussi bien intellectuellement qu’économiquement, ne jamais rester à sa place.
nous avons créé une grande diversité de boîtes, mentales, culturelles ou physiques, dans lesquelles nous avons pris l’habitude de nous enfermer systématiquement. Cet enfermement est une telle condition de notre vie, que bien souvent nous ne pensons pas à nous définir autrement que par la boîte où nous nous sommes rangés. Car penser dans un schéma est plus rapide à long terme que de penser en dehors, de sorte que le schéma est à la pensée ce que l’industrie est à l’agriculture : un outil, mais aussi une limitation, une standardisation, un conditionnement et un appauvrissement intrinsèque du goût et de la diversité, donc de l’adaptabilité.
The 5 Rules For Good Data Science Project Documentation
C’est basique mais j’avoue que je suis loin d’être le meilleur pour correctement documenter un projet.
À garder en tête :
Good Description
A Clear and Concise Installation Guide
Tutorials
Detailed API Reference
Architecture Explanation
Five Ways to do Conditional Filtering in Pandas
J’adore ce type d’article. Ça ne paie pas de mine mais c’est intéressant parce que je commence à manipuler Pandas et ce dire qu’on peut filtrer de toutes ces manières pour une raison, ça m’amuse.
Pandas filtering with selection brackets
Pandas series methods: isin(), between(), contains()
Defining separate filters outside of selection bracket filtering
query()
loc[]
Using the pandas filter() method
The 5 Hardest Things to Do in SQL
Je suis tombé sur cet article et je le garde de côté pour quand je creuserai en profondeur SQL. Il parle notamment de
Date Spines
Pivot / Unpivot
One-hot Encoding
Market Basket Analysis
Time-Series Aggregations.
6 Things About Data Science that Employers Don’t Want You to Know
Je crois que cet article n’était pas le plus intéressant en revanche j’ai noté quelques trucs malgré tout :
on pense souvent (à tort) qu’SQL est une compétence réservée aux data analystes. FAUX. En tant que data scientist, on a besoin de données pour créer des modèles d'apprentissage automatique, ce qui signifie qu’on doit interroger les données ou créer des pipelines si les données n'existent pas encore. Et il est extrêmement important de connaître SQL pour que vos données soient robustes et évolutives.
Les données dans le monde réel sont plus désordonnées que vous ne pouvez l'imaginer. Si vous avez déjà travaillé avec des données sur Kaggle, le monde réel n'a rien à voir
Une grande partie du temps est consacrée à la compréhension du problème métier en question. On doit avoir une compréhension complète du domaine dans lequel on travaille et du problème métier en question. Sans cela, vous passerez à côté des relations, hypothèses et variables clés qui pourraient faire la différence entre un modèle précis à 65 % et un modèle précis à 95 %.
10 Examples of Awful Data that I had to work with as a Data Scientist
Rien de bien folichon encore une fois si ce n’est pas faire attention à certaines choses :
Quand on peut écrire de différentes manières comme USA, US ou United States. Il peut être intéressant d’avoir une table pour indiquer même si cette dernière doit être constamment à jour… :/
Attention au premier jour de la semaine qui diffère selon la culture : lundi ou dimanche ?
Aux typos comme souvent (bien vérifier les mails, adresses, code postal, etc)
Aux données manquantes → ne pas les ignorer !
The List of Top 10 Lists in Data Science
Quelques listes intéressantes…
Top ✔️ 10 Skills for Data Science
Probability & Statistics
Linear Algebra
Python
R
SQL
Tableau/Power BI
AWS/Azure
Spark
Excel
DevOps
Top ✔️ 10 Algorithms for Data Science
Linear Regression
Logistics Regression
K-means Clustering
PCA
Support Vector Machine
Decision Tree
Random Forest
Gradient Boosting Machines
Naïve Bayes Classifier
Artificial Neural Networks
Top ✔️ 10 Data Science Experts to follow on LinkedIn
Bernard Marr
DJ Patil
Francesca Lazzeri, PhD
Carla Gentry
Dennis R. Mortensen
Andrew Ng
Gregory Piatetsky-Shapiro
Tom Davenport
Randy Lao ️
NABIH IBRAHIM BAWAZIR
How To Use ChatGPT With Python
Et pour finir ce petit article pour utiliser ChatGPT avec Python en installant OpenAI API client et en récupérant une API key. Son utilisation est assez simple :
# Generate a response
completion = openai.Completion.create(
engine=model_engine,
prompt=prompt,
max_tokens=1024,
n=1,
stop=None,
temperature=0.5,
)
Ce que je trouve intéressant est l’argument temperature pour customiser le comportement du model. C’est-à-dire ajuster la cohérence des réponses. Une température haute signifie des réponses pas très cohérentes.
