Informations

3.2 : Variables et données - Biologie

3.2 : Variables et données - Biologie


We are searching data for your request:

Forums and discussions:
Manuals and reference books:
Data from registers:
Wait the end of the search in all databases.
Upon completion, a link will appear to access the found materials.

Comme la plupart des langages, R nous permet d'affecter des données à des variables. En fait, nous pouvons le faire en utilisant soit le=l'opérateur d'affectation ou le<-opérateur, bien que ce dernier soit le plus couramment trouvé et généralement préféré.

Ici,imprimer()est une fonction qui imprime le contenu de son paramètre (dans la fenêtre de l'interpréteur dans RStudio, ou sortie standard sur la ligne de commande). Cette fonction a pour « effet secondaire » d'imprimer la sortie mais ne renvoie rien.[1] En revanche, leabdos()La fonction renvoie la valeur absolue de son entrée sans aucun autre effet.

L'interprète ignore#caractères et tout ce qui les suit sur une seule ligne, afin que nous puissions les utiliser pour insérer des commentaires dans notre code pour des explications ou pour améliorer la lisibilité. Les lignes vides sont ignorées, nous pouvons donc les ajouter pour améliorer également la lisibilité.

Vous pourriez être curieux de savoir pourquoi le supplément[1]est inclus dans la sortie imprimée; nous y reviendrons bientôt, mais pour l'instant, il suffit de dire que le nombre4.4est le premier (et le seul) d'une collection de valeurs en cours d'impression.

Le côté droit d'une affectation est généralement évalué en premier, nous pouvons donc faire des choses délicates comme réutiliser les noms de variables dans les expressions.

Les noms de variables et de fonctions dans R méritent une discussion spéciale. Il existe une variété de conventions, mais une convention commune que nous utiliserons est la même convention que nous avons utilisée pour Python : 3) utiliser des traits de soulignement pour séparer les mots, et (4) être significatif et descriptif pour rendre le code plus lisible.

Dans R, les noms de variables et de fonctions sont également autorisés à inclure le.caractère, qui ne contient aucune signification particulière (contrairement à de nombreuses autres langues). Donc,alpha.abs <- abs(alpha)n'est pas une chose rare à voir, même si nous nous en tiendrons à la conventionalpha_abs <- abs(alpha). Les variables R peuvent être à peu près n'importe quoi, tant que nous sommes disposés à entourer le nom de caractères de rappel. Donc,`alpha abs` <- abs(alpha)serait une ligne de code valide, tout comme une ligne suivante commeprint(`alpha abs`), bien que ce soit ne pas conseillé.

Numériques, nombres entiers, caractères et logiques

L'un des types de données les plus basiques dans R est le « numérique », également appelé nombre flottant ou nombre à virgule flottante dans d'autres langues.[2] R prend même en charge la notation scientifique pour ces types.

R fournit également un type distinct pour les entiers, les nombres qui n'ont pas de valeur fractionnaire. Ils sont importants, mais moins fréquemment observés dans R, principalement parce que les nombres sont créés sous forme de nombres, même s'ils ressemblent à des entiers.

Il est possible de convertir des types numériques en types entiers réels avec leas.entier()fonction, et vice versa avec leas.numeric()fonction.

Lors de la conversion en un type entier, les parties décimales sont supprimées et les valeurs sont donc arrondies vers0(4.8devient4, et-4.8deviendrait-4.)

Le type de données « caractère » contient une chaîne de caractères (bien que la chaîne puisse bien sûr ne contenir qu'un seul caractère, ou aucun caractère comme dans''). Ceux-ci peuvent être spécifiés à l'aide de guillemets simples ou doubles.

La concaténation de chaînes de caractères est plus délicate en R que dans d'autres langages, nous allons donc couvrir cela au chapitre 32, « Données de caractère et catégorielles ». (Leschat()La fonction fonctionne de la même manière et nous permet d'inclure des caractères spéciaux tels que des tabulations et des sauts de ligne en utilisant et , respectivement;chat("Shawn O'Neil")produirait quelque chose commeShawn O'Neil.)

Les types de caractères sont différents des nombres entiers et numériques, et ils ne peuvent pas être traités comme eux même s'ils leur ressemblent. Cependant, leas.caractère()etas.numeric()Les fonctions convertiront les chaînes de caractères dans le type respectif s'il est possible de le faire.

Par défaut, l'interpréteur R produira un avertissement (NA induits par la conversion) si une telle conversion n'a pas de sens, comme dansas.numeric("Shawn"). Il est également possible de convertir un type numérique ou entier en un type caractère, en utilisantas.caractère().

Le type de données « logique », connu sous le nom de type booléen dans d'autres langages, est l'un des types les plus importants pour R. Ces types simples stockent soit la valeur spécialeVRAIou la valeur spécialeFAUX(par défaut, ceux-ci peuvent également être représentés par le raccourciTetF, bien que ce raccourci soit moins préféré car certains codeurs utilisent occasionnellementTetFpour les noms de variables également). Les comparaisons entre d'autres types renvoient des valeurs logiques (à moins qu'elles n'entraînent un avertissement ou une erreur quelconque). Il est possible de comparer les types de caractères avec des comparateurs comme<et>; la comparaison se fait dans l'ordre lexicographique (dictionnaire).

Mais attention : en R (et Python), de telles comparaisons fonctionnent également alors qu'elles devraient peut-être plutôt entraîner une erreur : les types de caractères peuvent être comparés valablement aux types numériques, et les valeurs des caractères sont toujours considérées comme plus grandes. Cette propriété particulière a entraîné un certain nombre d'erreurs de programmation.

R prend en charge<,>,<=,>=,==, et!=comparaisons, et celles-ci ont la même signification que pour les comparaisons en Python (voir le chapitre 17, « Flux de contrôle conditionnel », pour plus de détails). Pour les types numériques, R souffre de la même mise en garde concernant la comparaison d'égalité que Python et d'autres langages : les erreurs d'arrondi pour les nombres avec des expansions décimales peuvent s'aggraver de manière dangereuse, et donc la comparaison des nombres pour l'égalité doit être effectuée avec précaution. (Vous pouvez le voir en essayant d'exécuterimprimer (0,2 * 0,2 / 0,2 == 0,2), ce qui entraîneraFAUX; encore une fois, voir le chapitre 17 pour plus de détails.[3]) La façon "officielle" de comparer deux nombres pour une égalité approximative dans R est plutôt maladroite :isTRUE(all.equal(a, b))RetourVRAIsiuneetbsont approximativement égaux (ou, s'ils contiennent plusieurs valeurs, tous les éléments le sont). Nous explorerons quelques alternatives dans les chapitres suivants.

En parlant d'erreurs de programmation, car<-est l'opérateur d'affectation préféré mais=est aussi un opérateur d'affectation, il faut être prudent lors du codage avec ceux-ci et le==ou<opérateurs de comparaison. Considérez les déclarations similaires suivantes, qui ont toutes des significations différentes.

R prend également en charge les connecteurs logiques, bien que ceux-ci adoptent une syntaxe légèrement différente de celle de la plupart des autres langages.

ConjonctifSensExemple (avecun <- 7,b <- 3)
&et:Vraisi les deux côtés sontVraia < 8 & b == 3 # Vrai
|ou:Vraisi un ou les deux côtés sontVraiun < 8 | b == 9 # Vrai
!ne pas:Vraisi ce qui suit estFaux! a < 3 # Vrai

Ceux-ci peuvent être regroupés avec des parenthèses, et devraient généralement l'être pour éviter toute confusion.

Lors de la combinaison d'expressions logiques de cette façon, chaque côté d'une esperluette ou|doit aboutir à une logique—le codea == 9 | 7est ne pas le même quea == 9 | a == 7(et, en fait, le premier entraînera toujoursVRAIsans avertissement).

Parce que R est un langage tellement dynamique, il peut souvent être utile de vérifier à quel type de données une variable particulière fait référence. Ceci peut être accompli avec leclasser()fonction, qui renvoie une chaîne de caractères du type approprié.

Nous le ferons fréquemment au fur et à mesure que nous continuerons à en apprendre davantage sur les différents types de données R.

Des exercices

  1. Étant donné un ensemble de variables,une,b,c, et, trouvez leurs affectations à l'un ou l'autreVRAIouFAUXtel que lerésultatla variable tientVRAI.
  2. Sans exécuter le code, essayez de raisonnerprint(class(class(4.5)))entraînerait.
  3. Essayez de convertir un type de caractère comme"1e-50"à un type numérique avecas.numeric(), et un comme"1x10^5". Quelles sont les valeurs numériques après la conversion ? Essayez de convertir la valeur numérique0.00000001à un type de caractère : quelle est la chaîne produite ? Quels sont les plus petits et les plus grands nombres que vous pouvez créer ?
  4. Lesest.numeric()la fonction renvoie la logiqueVRAIsi son entrée est de type numérique, etFAUXautrement. Les fonctionsest.caractère(),est.entier(), etest.logique()faire de même pour leurs types respectifs. Essayez de les utiliser pour tester si des variables spécifiques sont des types spécifiques.
  5. Que se passe-t-il lorsque vous exécutez une ligne commeimprimer("ABC"* 4)? Qu'en est-il deimprimer("ABC" + 4)? Pourquoi pensez-vous que les résultats sont ce qu'ils sont ? Que diriez-vousprint("ABC" + "DEF")? Enfin, essayez ce qui suit :imprimer (VRAI + 5),imprimer (VRAI + 7),imprimer (FAUX + 5),imprimer (FAUX + 7),imprimer (VRAI * 4), etimprimer (FAUX * 4). Que pensez-vous qui se passe ici?


Comprendre les types de variables

Publié le 21 novembre 2019 par Rebecca Bevans. Révisé le 2 mars 2021.

En recherche statistique, une variable est définie comme un attribut d'un objet d'étude. Le choix des variables à mesurer est essentiel à une bonne conception expérimentale.

Exemple

Si vous souhaitez tester si certaines espèces végétales sont plus tolérantes au sel que d'autres, certaines variables clés que vous pouvez mesurer incluent la quantité de sel vous ajoutez à l'eau, le espèces de plantes à l'étude, et les variables liées à la santé des plantes comme croissance et flétrissement.

Vous devez savoir avec quels types de variables vous travaillez afin de choisir les tests statistiques appropriés et d'interpréter les résultats de votre étude.

Vous pouvez généralement identifier le type de variable en posant deux questions :


Les variables de mesure sont, comme leur nom l'indique, des choses que vous pouvez mesurer. Une observation individuelle d'une variable de mesure est toujours un nombre. Les exemples incluent la longueur, le poids, le pH et la densité osseuse. D'autres noms pour eux incluent les variables "numériques" ou "quantitatives".

Certains auteurs divisent les variables de mesure en deux types. Un type est constitué de variables continues, telles que la longueur de l'antenne d'un isopode, qui ont en théorie un nombre infini de valeurs possibles. L'autre est constituée de variables discrètes (ou méristiques), qui n'ont que des valeurs entières, ce sont des choses que vous comptez, telles que le nombre d'épines sur l'antenne d'un isopode. Les théories mathématiques qui sous-tendent les tests statistiques impliquant des variables de mesure supposent que les variables sont continues. Heureusement, ces tests statistiques fonctionnent bien sur les variables de mesure discrètes, vous n'avez donc généralement pas à vous soucier de la différence entre les variables de mesure continues et discrètes. La seule exception serait si vous avez un très petit nombre de valeurs possibles d'une variable discrète, auquel cas vous voudrez peut-être la traiter comme une variable nominale à la place.

Lorsque vous avez une variable de mesure avec un petit nombre de valeurs, il peut ne pas être clair si elle doit être considérée comme une mesure ou une variable nominale. Par exemple, disons que vos isopodes ont (20) à (55) épines sur leur antenne gauche, et vous voulez savoir si le nombre moyen d'épines sur l'antenne gauche est différent entre les mâles et les femelles. Vous devez considérer le numéro de la colonne vertébrale comme une variable de mesure et analyser les données à l'aide d'un échantillon à deux t&ndashtest ou une anova à sens unique. S'il n'y a que deux numéros d'épine différents&mdashcertains isopodes ont (32) épines, et certains ont (33)&mdashvous devez traiter le numéro d'épine comme une variable nominale, avec les valeurs "(32)" et "(33 )" et comparer les proportions d'isopodes avec (32) ou (33) épines chez les mâles et les femelles en utilisant un test d'indépendance exact de Fisher (ou chi carré ou g&ndashtest d'indépendance, si la taille de votre échantillon est vraiment importante). La même chose est vraie pour les expériences de laboratoire si vous donnez à vos isopodes de la nourriture avec (15) différentes concentrations de mannose et que vous mesurez ensuite leur taux de croissance, la concentration en mannose serait une variable de mesure si vous donnez de la nourriture à certains isopodes avec (5mM) du mannose, et le reste des isopodes reçoit (25mM) du mannose, alors la concentration en mannose serait une variable nominale.

Mais que se passe-t-il si vous concevez une expérience avec trois concentrations de mannose, cinq ou sept ? Il n'y a pas de règle rigide, et la façon dont vous traitez la variable dépendra en partie de vos hypothèses nulles et alternatives. Si votre hypothèse alternative est « des valeurs différentes de mannose ont des taux de croissance des isopodes différents », vous pouvez traiter la concentration de mannose comme une variable nominale. Même s'il existe un schéma étrange de croissance élevée sur zéro mannose, faible croissance sur de petites quantités, forte croissance sur des quantités intermédiaires et faible croissance sur des quantités élevées de mannose, une anova à sens unique pourrait donner un résultat significatif. Si votre hypothèse alternative est « les isopodes se développent plus rapidement avec plus de mannose », il serait préférable de traiter la concentration en mannose comme une variable de mesure, afin que vous puissiez effectuer une régression.

La règle empirique suivante peut être utilisée :

  • une variable de mesure avec seulement deux valeurs doit être traitée comme une variable nominale
  • une variable de mesure avec six valeurs ou plus doit être traitée comme une variable de mesure
  • une variable de mesure avec trois, quatre ou cinq valeurs n'existe pas

Bien sûr, dans le monde réel, il existe des expériences avec trois, quatre ou cinq valeurs d'une variable de mesure. Des études de simulation montrent que l'analyse de tels dépendant variables avec les méthodes utilisées pour les variables de mesure fonctionne bien (Fagerland et al. 2011). Je ne suis au courant d'aucune recherche sur l'effet du traitement indépendant variables avec un petit nombre de valeurs comme mesure ou nominale. Votre décision sur la façon de traiter votre variable dépendra en partie de votre question biologique. Vous pourrez peut-être éviter l'ambiguïté lorsque vous concevez l'expérience et si vous voulez savoir si une variable dépendante est liée à une variable indépendante qui pourrait être une mesure, c'est une bonne idée d'avoir au moins six valeurs de la variable indépendante.

Quelque chose qui pourrait être mesuré est une variable de mesure, même lorsque vous définissez les valeurs. Par exemple, si vous cultivez des isopodes avec un lot de nourriture contenant (10mM) mannose, un autre lot de nourriture avec (20mM) mannose, un autre lot avec (30mM) mannose, etc. jusqu'à (100mM ) mannose, les différentes concentrations de mannose sont une variable de mesure, même si vous avez préparé la nourriture et réglé vous-même la concentration de mannose.

Soyez prudent lorsque vous comptez quelque chose, car il s'agit parfois d'une variable nominale et parfois d'une variable de mesure. Par exemple, le nombre de colonies de bactéries sur une plaque est une variable de mesure vous comptez le nombre de colonies, et il y a (87) colonies sur une plaque, (92) sur une autre plaque, etc. Chaque plaque aurait un point de données, le nombre de colonies qui est un nombre, c'est donc une variable de mesure. Cependant, si la plaque contient des colonies de bactéries rouges et blanches et que vous comptez le nombre de chacune, il s'agit d'une variable nominale. Maintenant, chaque colonie est un point de données séparé avec l'une des deux valeurs de la variable, "red" ou "white" car c'est un mot, pas un nombre, c'est une variable nominale. Dans ce cas, vous pouvez résumer les données nominales avec un nombre (le pourcentage de colonies qui sont rouges), mais les données sous-jacentes sont toujours nominales.

Rapports

Parfois, vous pouvez simplifier votre analyse statistique en prenant le rapport de deux variables de mesure. Par exemple, si vous voulez savoir si les isopodes mâles ont une tête plus grosse, par rapport à la taille du corps, que les isopodes femelles, vous pouvez prendre le rapport de la largeur de la tête à la longueur du corps pour chaque isopode, et comparer les rapports moyens des mâles et des femelles à l'aide d'un deux échantillons t&ndashtest. Cependant, cela suppose que le rapport est le même pour différentes tailles de corps. Nous savons que ce n'est pas vrai pour les humains&mdashle rapport taille de la tête/taille du corps chez les bébés est incroyablement grand, par rapport aux adultes&mdashvous devriez donc regarder la régression de la largeur de la tête sur la longueur du corps et vous assurer que la ligne de régression va assez près de l'origine, comme une ligne droite la ligne de régression passant par l'origine signifie que les ratios restent les mêmes pour différentes valeurs de la variable (X). Si la ligne de régression ne se rapproche pas de l'origine, il serait préférable de garder les deux variables séparées au lieu de calculer un rapport, et de comparer la ligne de régression de la largeur de la tête sur la longueur du corps chez les mâles à celle des femelles en utilisant une analyse de covariance .

Variables circulaires

Un type particulier de variable de mesure est une variable circulaire. Ceux-ci ont la propriété que la valeur la plus élevée et la valeur la plus basse sont souvent côte à côte, le point zéro est complètement arbitraire. Les variables circulaires les plus courantes en biologie sont l'heure du jour, la période de l'année et la direction de la boussole. Si vous mesurez la période de l'année en jours, le jour 1 pourrait être le 1er janvier, ou l'équinoxe de printemps, ou votre anniversaire, quel que soit le jour que vous choisissez, le jour 1 est adjacent au jour 2 d'un côté et au jour 365 de l'autre.

Si vous ne considérez qu'une partie du cercle, une variable circulaire devient une variable de mesure régulière. Par exemple, si vous effectuez une régression polynomiale des attaques d'ours en fonction de la période de l'année dans le parc national de Yellowstone, vous pouvez traiter le "mois" comme une variable de mesure, avec mars comme (1) et novembre comme (9) vous n'auriez pas à craindre que février (mois (12)) soit à côté de mars, car les ours hibernent de décembre à février, et vous ignoreriez ces trois mois.

Cependant, si votre variable est vraiment circulaire, il existe des tests statistiques spéciaux et très obscurs conçus uniquement pour les données circulaires. Les chapitres 26 et 27 de Zar (1999) sont un bon point de départ.


3 types de variables biologiques les plus importants

Chaque discipline biologique a son propre ensemble de variables, qui peuvent inclure des mesures morphologiques conventionnelles, des concentrations de produits chimiques dans les fluides corporels, des taux de certains processus biologiques, des fréquences de certains événements comme en génétique et en radiobiologie et bien d'autres.

Courtoisie d'image : limno.eu/LTER/immagini_limno/FiorituraAnabaena.jpg

Une variable peut être définie comme une propriété par rapport à laquelle les individus d'un échantillon diffèrent d'une manière certaine. Si la propriété ne diffère pas au sein d'un échantillon à portée de main ou au moins parmi les échantillons étudiés, elle ne peut pas être d'intérêt statistique.La longueur, la taille, le poids, le nombre de dents, la teneur en vitamine C et les génotypes sont des exemples de variables dans des groupes d'organismes ordinaires, génétiquement et phénotypiquement divers.

Le sang chaud dans un groupe de mammifères ne l'est pas, puisqu'ils sont tous semblables à cet égard, bien que la température corporelle des mammifères individuels soit, bien sûr, une variable.

Types de variables biologiques :

Les variables biologiques ont été classées dans les types suivants :

1. Variables de mesure :

Les variables de mesure sont toutes celles dont les états différents peuvent être exprimés de manière numériquement ordonnée. Ils sont divisibles en deux sortes. Les premières d'entre elles sont des variables continues, qui au moins théoriquement peuvent prendre un nombre infini de valeurs entre deux points fixes quelconques.

Par exemple, entre deux mesures de longueur 1,5 et 1,6 cm, il y a un nombre infini de longueurs qui pourraient être mesurées si l'on était si incliné et que l'on disposait d'une méthode de calibrage suffisamment précise pour obtenir de telles mesures.

Toute lecture donnée d'une variable continue, telle qu'une longueur de 157 mm, est donc une approximation de la lecture exacte, ce qui en pratique est rare. Quelques exemples courants de variables biologiques continues sont les longueurs, les surfaces, les volumes, les poids, les angles, les températures, les périodes de temps, les pourcentages et les taux.

Les variables discontinues, également appelées variables méristiques ou discrètes, contrastent avec les variables continues. Ce sont des variables qui n'ont que certaines valeurs numériques fixes, sans aucune valeur intermédiaire possible entre les deux. Ainsi, le nombre de segments dans un certain appendice d'insecte peut être de 4 ou 5 ou 6, mais jamais de 51/2 ou 4,3.

Des exemples de variables discontinues sont le nombre d'une certaine structure (comme des segments, des poils, des dents ou des glandes), le nombre de descendants, le nombre de colonies de micro-organismes ou d'animaux, ou le nombre de plantes dans un carré donné.

2. Variables classées :

Certaines variables ne peuvent pas être mesurées mais au moins peuvent être ordonnées ou classées selon leur ampleur. Ainsi, dans une expérience, on pourrait enregistrer l'ordre d'émergence de dix pupes sans préciser l'heure exacte à laquelle chaque pupe a émergé. Dans de tels cas, les données sont codées comme une variable classée, l'ordre d'émergence.

Ainsi, en exprimant une variable sous la forme d'une série de rangs, tels que 1, 2, 3, 4, 5, nous n'impliquons pas que la différence de grandeur entre, disons, les rangs 1 et 2 est identique ou même proportionnelle à la différence entre 2 et 3.

3. Attributs :

Les variables qui ne peuvent pas être mesurées mais doivent être exprimées qualitativement sont appelées attributs. Ce sont toutes des propriétés, telles que noir ou blanc, enceinte ou non enceinte, mort ou vivant, mâle ou femelle. Lorsque de tels attributs sont combinés avec des fréquences, ils peuvent être traités statistiquement.

Par exemple, sur 80 souris, on peut affirmer que quatre étaient noires, deux agouti et les autres grises. Lorsque des attributs sont combinés avec des fréquences dans des tableaux adaptés à l'analyse statistique, ils sont appelés données de dénombrement. Ainsi, les données de dénombrement sur la couleur chez les souris que nous venons de mentionner seraient organisées comme suit :


Données statistiques / Variables – Introduction (Classification des données statistiques/variables – numériques vs catégoriques)

Ø Les données sont un ensemble de valeurs de variables qualitatives ou quantitatives.

Ø En biostatistique (également en statistique) les données sont les observations individuelles.

Ø Les investigations scientifiques impliquent des observations sur des variables.

Ø Les observations faites sur ces variables sont obtenues sous forme de ‘Les données’.

Ø La variable est une quantité ou une caractéristique qui peut « varier d'un individu à l'autre ».

Ø Exemple : Considérez le « poids » caractéristique des individus et laissez-le être noté par la lettre « N ». La valeur de « N » varie d'un individu à l'autre et, par conséquent, « N » est une variable.

Ø Les données et la variable ne sont pas exactes mais utilisées fréquemment comme synonymes.

Ø Les variables peuvent également être appelées comme ‘éléments de données’.

Ø La majorité des analyses statistiques sont effectuées sur des variables.

Type de variables dans les statistiques

Les variables statistiques peuvent être classées en fonction de deux critère (I) Nature des variables et (II) Source des variables

I. Classification de la variable basée sur la nature des variables

Ø Sur la base de la nature des variables, les variables statistiques peuvent être classées en DEUX grandes catégories telles que (1) Numérique et (2) Catégorique.

Ø Le tableau de classement des variables est donné ci-dessous :

(1). Variable numérique

Ø Les variables numériques sont les variables mesurables ou dénombrables.

Ø Elles sont mieux appelées variables quantitatives car elles donnent les données quantitatives.

Ø Exemple : hauteur de la plante, poids des fruits, rendement de la culture, nombre de pétales, graines, feuilles dans une plante etc.

Ø Les variables numériques sont ensuite classées en (a) Variables discrètes et B) Variables continues.

(a) Variables discrètes :

Ø Les variables discrètes sont également appelées variables discontinues.

Ø Ici, les valeurs que peuvent prendre les variables sont limitées à des nombres entiers seulement (0, 1, 2, 3 etc.).

Ø Il y aura des « écarts » entre les valeurs successives de la variable.

Ø Exemple : Considérez le nombre de pétales dans une fleur comme une variable discrète X. Dans la situation réelle, le nombre de pétales dans une fleur peut être 4 ou 5 ou 6 ou n'importe quel nombre entier. Il n'y aura pas de variable telle que 5 ½ pétales ou 4,2 pétales. De telles variables sont appelées variables discrètes ou variables discontinues.

Ø Exemple : nombre de frères, nombre de pétales etc.

(b) Variables continues

Ø Continu sont les variables qui peuvent prendre n'importe quelle valeur dans une certaine plage.

Ø Il y a NON « écarts » entre les valeurs successives de la variable.

Ø Exemple : Considérez la hauteur de plante comme la variable X. En situation réelle la hauteur de plante peut être de 10 cm, 10,1 cm, 10,5 cm, 10,8 cm, 11 cm etc. Ainsi, entre deux nombres entiers (ici 10 et 11) , il existe de nombreuses valeurs possibles. Une telle variable est appelée variable continue.

Ø Exemples : taille, poids, longueur, vitesse etc.

(2). Variable catégorielle

Ø Les variables catégorielles sont des variables non mesurables.

Ø Elles sont aussi appelées variables non numériques ou qualitatives car elles donnent des données qualitatives.

Ø Exemple : couleur de la fleur, forme des feuilles, forme des graines etc.

Ø Les variables catégorielles sont en outre classées en (a) Variables nominales et (b) Variables ordinales.

(une). Variables nominales :

Ø Les variables nominales ont des niveaux distincts qui n'ont AUCUN ordre inhérent.

Ø Exemple : Couleur des cheveux (blanc, noir, marron etc.), sexe (homme et femme).

Ø En statistique, la mesure nominale signifie l'attribution d'une valeur numérique à une caractéristique spécifique (exemple : Sexe des employés dans un bureau : homme 20, femme 28).

(b). Variables ordinales :

Ø Les variables ordinales ont des niveaux qui suivent un ordre distinct.

Ø Exemples : Les degrés de changements chez le patient fiévreux après le traitement antibiotique (tels que : amélioration importante, amélioration modérée, pas de changement, décès).

II. Classification de la variable basée sur la source des variables

Ø Sur la base de la source des données (variables), les données peuvent être classées en (a) Primaire Données et (b) Secondaire Données

(une). Donnée primaire

Ø Les données initialement collectées au cours du processus d'enquête par l'enquêteur sont appelées données primaires.

Ø Les données primaires sont plus précises et uniformes.

Ø Les données primaires impliquent la supervision de l'investigateur.

Ø La collecte de données primaires demande du temps et du travail.

Ø Les études biologiques, en particulier les études expérimentales, dépendent principalement de données primaires.

(b). Données secondaires

Ø Les données secondaires sont les données collectées par une autre personne ou organisation pour leur propre usage.

Ø Ce sont les données qui existent déjà dans le même but ou dans un autre but que de répondre à la question en question (Blair M.M.).

Ø Les données secondaires sont généralement des données publiées par le chercheur principal.

Ø Obtenir les données secondaires est avantageux puisqu'il est moins coûteux et prend moins de temps.

Ø Les données secondaires sont fréquemment utilisées dans des disciplines telles que l'économie, le commerce, l'agriculture, la santé publique, etc.

Ø Exemple : données de recensement de la population, taux de mortalité national, précipitations annuelles, registres budgétaires, etc.

Ø Les résultats de recherche publiés dans des revues réputées peuvent également servir de données secondaires.

Source des données secondaires

Ø Les sources publiées sont la source excellente et fréquemment utilisée de données secondaires.

Ø Ce sont les dossiers publiés ou conservés par les agences gouvernementales et non gouvernementales telles que le département du recensement, le département des statistiques, le département de la santé, le département de l'agriculture et de la pêche, les publications officielles de l'ONU, de l'OMS, du PNUE, de l'UNESCO, etc. Les données.

Ø Les sources importantes de données secondaires sont résumées ci-dessous :

(une). Publications internationales : Il s'agit des rapports réguliers ou ponctuels d'organisations internationales telles que l'ONU, l'OMS, le WWF, le FMI (Fonds monétaire international) etc.

(b). Publications officielles de l'État et du gouvernement central : Il s'agit des publications de l'État du gouvernement central sur des questions d'actualité ou des rapports périodiques réguliers. Exemple : Recensement de l'Inde, Bulletin de la banque de réserve, Rapport sur la monnaie et les finances, etc.

(c). Rapports des commissions : ce sont les rapports des commissions d'enquête nommées par le gouvernement. Exemple : rapport du comité Madhav Gadgil, rapport du comité Kasturirangan, etc.

(ré). Les journaux et magazines: Il s'agit des rapports d'examen importants et des articles publiés dans des journaux et des magazines réputés.

(e). Chercheurs universitaires : Ce sont les rapports ou les résultats des recherches antérieures publiées dans des revues réputées.

(F). Publications semi-officielles : Ce sont les publications des organisations semi-gouvernementales telles que les municipalités, les provinces, etc.

Ø En dehors des données publiées, certaines données authentiques mais non publiées peuvent également être utilisées comme source de données secondaires avec une grande précaution.

Attention à prendre avant de prendre les données secondaires

Ø Avant de prélever les données secondaires, l'enquêteur doit s'enquérir des aspects suivants des données :

$ La fiabilité des données.

$ La compétence de la personne (ou de l'organisation) qui a collecté les données.


Questions et réponses

Contexte de la question 1

Considérez la fonction suivante.

1) Si nous exécutons les commandes suivantes (écrites ci-dessous), quelle sera la sortie ?

La règle de portée de R fera que z<-4 aura la priorité sur z<-10. Par conséquent, g(x) renverra une valeur de 8. Par conséquent, l'option A est la bonne réponse.

Contexte de la question 2

L'ensemble de données sur l'iris contient différentes espèces de fleurs telles que Setosa, Versicolor et Virginica avec leur longueur de sépale. Maintenant, nous voulons comprendre la distribution de la longueur des sépales à travers toutes les espèces de fleurs. Une façon de le faire est de visualiser cette relation à travers le graphique ci-dessous.

2) Quelle fonction peut être utilisée pour produire le graphique ci-dessus ?

A) xyplot()
B) graphique en bandes ()
C) graphique à barres()
D) bwplot()

Le graphique ci-dessus est de type bande tandis que les options a, c et d produiront respectivement un nuage de points, une barre et une boîte à moustaches. Par conséquent, l'option B est la bonne solution.

Contexte de la question 3

Alpha 125.5 0
Bêta 235.6 1
Bêta 212.03 0
Bêta 211.30 0
Alpha 265.46 1

3) Laquelle des commandes suivantes lira correctement le fichier csv ci-dessus avec 5 lignes dans une trame de données ?

Les options 1 et 2 liront la première ligne de la trame de données ci-dessus comme en-tête. L'option 3 n'existe pas. Par conséquent, l'option D est la bonne solution.

Contexte de la question 4

Le format de fichier Excel est l'un des formats les plus couramment utilisés pour stocker des ensembles de données. Il est important de savoir importer un fichier excel dans R. Ci-dessous se trouve un fichier excel dans lequel des données ont été saisies dans la troisième feuille.

Alpha 125.5 0
Bêta 235.6 1
Bêta 212.03 0
Bêta 211.30 0
Alpha 265.46 1

Nom de fichier – Dataframe.xlsx

4) Lequel des codes suivants lira les données ci-dessus de la troisième feuille dans une trame de données dans R ?

Toutes les options ci-dessus sont vraies, car elles donnent différentes méthodes pour lire un fichier Excel dans R et lit correctement le fichier ci-dessus. Par conséquent, l'option D est la bonne solution.

Question Contexte 5

UNE 10 Sam
B 20 Pierre
C 30 Harry
! ?
E 50 marque

Nom de fichier – Dataframe.csv

5) Les valeurs manquantes dans ce fichier csv ont été représentées par un point d'exclamation (“!”) et un point d'interrogation (“?”). Lequel des codes ci-dessous lira correctement le fichier csv ci-dessus dans R ?

B) csv('Dataframe.csv',header=FALSE, sep=',',na.strings=c('?'))

L'option A ne pourra pas lire "?" et "!" comme N / A dans R. l'option B ne pourra lire que "?" comme N / A mais non "!”. L'option 4 n'existe pas. Par conséquent, l'option C est la bonne solution.

Contexte des questions 6-7

Colonne 1 Colonne 2 Colonne 3
Ligne 1 15.5 14.12 69.5
Rangée 2 18.6 56.23 52.4
Ligne 3 21.4 47.02 63.21
Rangée 4 36.1 56.63 36.12

Nom de fichier – Dataframe.csv

6) Le fichier csv ci-dessus a des noms de lignes ainsi que des noms de colonnes. Lequel des codes suivants lira correctement le fichier csv ci-dessus dans R ?

B) csv2('Train.csv',header=TRUE, row.names=TRUE)

Solution: (RÉ)

lignes.noms L'argument dans les options A et B ne prend que le vecteur contenant les noms de lignes réels ou un seul nombre donnant la colonne de la table qui contient les noms de lignes et non une valeur logique. L'option C n'existe pas. Par conséquent, l'option D est la bonne solution.

Contexte des questions 6-7

Colonne 1 Colonne 2 Colonne 3
Ligne 1 15.5 14.12 69.5
Rangée 2 18.6 56.23 52.4
Ligne 3 21.4 47.02 63.21
Rangée 4 36.1 56.63 36.12

Nom de fichier – Dataframe.csv

7) Lequel des codes suivants ne lira que les deux premières lignes du fichier csv ?

L'option B ne pourra pas lire correctement le fichier csv car le séparateur par défaut dans la fonction csv2 est "" alors que les fichiers csv sont de type ",”. L'option C a une valeur d'argument d'en-tête incorrecte. L'option D n'existe pas. Par conséquent, l'option A est la bonne réponse.

Contexte de la question 8

8) Il y a deux dataframes stockées Dataframe1 et Dataframe2 montrées ci-dessus. Lequel des codes suivants produira la sortie ci-dessous ?

Caractéristique1 Caractéristique2 Caractéristique3
UNE 1000 25.5
B 2000 35.5
C 3000 45.5
4000 55.5
E 5000 65.5
F 6000 75.5
g 7000 85.5
H 8000 95.5

Solution: (RÉ)

L'option C entraînera l'inclusion de la fonctionnalité 4 dans le cadre de données fusionné, ce que nous ne voulons pas. Par conséquent, l'option D est la bonne solution.

Contexte de la question 9

V1 V2
1 121.5 461
2 516 1351
3 451 6918
4 613 112
5 112.36 230
6 25.23 1456
7 12 457

9) Un ensemble de données a été lu dans R et stocké dans une variable “dataframe”. Lequel des codes ci-dessous produira un résumé (moyenne, mode, médiane) de l'ensemble de données dans une seule ligne de code ?

Solution: (E)

L'option A ne donnera que la moyenne et la médiane mais pas le mode. Les options B, C et D ne fourniront pas non plus les statistiques requises. Par conséquent, l'option E est la bonne solution.

Contexte de la question 10

Un ensemble de données a été lu dans R et stocké dans une variable “dataframe”. Les valeurs manquantes ont été lues comme NA.

UNE 10 Sam
B N / A Pierre
C 30 Harry
40 N / A
E 50 marque

10) Lequel des codes suivants ne donnera pas le nombre de valeurs manquantes dans chaque colonne ?

C) sapply(dataframe,function(x) sum(is.na(x))

Solution: (RÉ)

L'option D donnera le nombre global des valeurs manquantes mais pas par colonne. Par conséquent, l'option D est la bonne solution.

Contexte de la question 11

L'une des phases importantes d'un pipeline d'analyse de données est l'analyse univariée des caractéristiques, qui comprend la vérification des valeurs manquantes et de la distribution, etc. Vous trouverez ci-dessous un ensemble de données et nous souhaitons tracer un histogramme pour la variable “Value”.

Paramètre État Valeur Personnes à charge
Alpha actif 50 2
Bêta actif 45 5
Bêta Passif 25 0
Alpha Passif 21 0
Alpha Passif 26 1
Bêta actif 30 2
Bêta Passif 18 0

11) Laquelle des commandes suivantes nous aidera à effectuer cette tâche ?

Solution: (RÉ)

Toutes les options données traceront un histogramme et cela peut être utilisé pour voir l'asymétrie des données souhaitées.

Contexte de la question 12

Paramètre État Valeur Usage
Alpha actif 50 0
Bêta actif 45 1
Bêta Passif 25 0
Alpha Passif 21 0
Alpha Passif 26 1
Bêta actif 30 1
Bêta Passif 18 0

Certains algorithmes comme XGBOOST ne fonctionnent qu'avec des données numériques. Dans ce cas, les variables catégorielles présentes dans l'ensemble de données sont d'abord converties en variables DUMMY qui représentent la présence ou l'absence d'un niveau d'une variable catégorielle dans l'ensemble de données. Par exemple, après avoir créé la variable factice pour l'entité “Parameter”, l'ensemble de données ressemble à ci-dessous.

Paramètre_Alpha Paramètre_Bêta État Valeur Usage
1 0 actif 50 0
0 1 actif 45 1
0 1 Passif 25 0
1 0 Passif 21 0
1 0 Passif 26 1
0 1 actif 30 1
0 1 Passif 18 0

12) Laquelle des commandes suivantes nous aidera à y parvenir ?

A) mannequins :: dummy.data.frame(dataframe,names=c(‘Parameter’))

Solution: (RÉ)

L'option C encode le Paramètre la colonne aura 2 niveaux mais n'effectuera pas un encodage à chaud. Par conséquent, l'option D est la bonne solution.

Contexte de la question 13

Colonne1 Colonne2 Colonne3 Colonne4 Colonne5 Colonne6
Nom1 Alpha 12 24 54 0 Alpha
Nom2 Bêta 16 32 51 1 Bêta
Nom3 Alpha 52 104 32 0 Gamma
Nom4 Bêta 36 72 84 1 Delta
Nom5 Bêta 45 90 32 0 Phi
Nom6 Alpha 12 24 12 0 Zêta
Nom7 Bêta 32 64 64 1 Sigma
Nom8 Alpha 42 84 54 0 Mu
Nom9 Alpha 56 112 31 1 Eta

13) Nous souhaitons calculer la corrélation entre “Column2” et “Column3” d'un “dataframe”. Lequel des codes ci-dessous atteindra l'objectif ?

(sum(dataframe$Column2*dataframe$Column3)- (sum(dataframe$Column2)*sum(dataframe$Column3)/nrow(dataframe)))/(sqrt((sum(dataframe$Column2*dataframe$Column2)-( sum(dataframe$Column2)^3)/nrow(dataframe))* (sum(dataframe$Column3*dataframe$Column3)-(sum(dataframe$Column3)^2)/nrow(dataframe))))

Dans la variante A, corr est le mauvais nom de fonction. Le nom réel de la fonction pour calculer la corrélation est cor. Dans l'option B, c'est l'écart type qui doit être le dénominateur et non la variance. De même, la formule de l'option C est fausse. Par conséquent, l'option D est la bonne solution.

Contexte des questions 14

Paramètre État Valeur Personnes à charge
Alpha actif 50 2
Bêta actif 45 5
Bêta Passif 25 0
Alpha Passif 21 0
Alpha Passif 26 1
Bêta actif 30 2
Bêta Passif 18 0

14) L'ensemble de données ci-dessus a été chargé pour vous dans R dans une variable nommée “dataframe” avec la première ligne représentant le nom de la colonne. Lequel des codes suivants sélectionnera uniquement les lignes pour lesquelles le paramètre est Alpha ?

A) sous-ensemble (dataframe, Parameter=’Alpha’)

B) sous-ensemble (dataframe, Paramètre==’Alpha’)

Dans l'option A, il devrait y avoir un opérateur d'égalité au lieu de l'opérateur d'affectation. Par conséquent, l'option D est la bonne solution.

15) Laquelle des fonctions suivantes est utilisée pour afficher l'ensemble de données sous forme de feuille de calcul ?

Solution : (B)

L'option B est la seule option qui affichera l'ensemble de données au format feuille de calcul. Par conséquent, l'option B est la bonne solution.

Contexte des questions 16

La trame de données ci-dessous est stockée dans une variable nommée data.

UNE B
1 Droit
2 Tort
3 Tort
4 Droit
5 Droit
6 Tort
7 Tort
8 Droit

16) Supposons que B est une variable catégorielle et que nous souhaitons tracer une boîte à moustaches pour chaque niveau du niveau catégoriel. Laquelle des commandes ci-dessous nous aidera à y parvenir ?

La fonction Boxplot dans R nécessite une entrée de formule pour dessiner différents boxplots par niveaux d'une variable de facteur. Par conséquent, l'option B est la bonne solution.

17) Laquelle des commandes suivantes divisera la fenêtre de traçage en 4 X 3 fenêtres et où les tracés entreront dans la colonne de la fenêtre.

mfcol L'argument garantira que les tracés entrent dans la colonne de la fenêtre de traçage par colonne. Par conséquent, l'option B est la bonne solution.

Contexte des questions 18

Une Dataframe “df” contient les données suivantes :

Après avoir lu les données ci-dessus, nous voulons la sortie suivante :

18) Laquelle des commandes suivantes produira le résultat souhaité ?

Solution: (RÉ)

Aucune des options ci-dessus ne produira le résultat souhaité. Par conséquent, l'option D est la bonne solution.

19) Laquelle des commandes suivantes nous aidera à renommer la deuxième colonne d'un cadre de données nommé “table” d'alpha à bêta ?

Solution: (RÉ)

Toutes les options ci-dessus sont des méthodes différentes pour renommer les noms de colonnes d'un cadre de données. Par conséquent, l'option D est la bonne solution.

Contexte de la question : 20

La majorité du travail dans R utilise la mémoire interne du système et avec de grands ensembles de données, des situations peuvent survenir lorsque l'espace de travail R ne peut pas contenir tous les objets R en mémoire. La suppression des objets inutilisés est donc l'une des solutions.

20) Laquelle des commandes suivantes supprimera un objet/variable R nommé “santa” de l'espace de travail ?

A) supprimer (le père Noël)
B) rm(Père Noël)
C) Les deux
D) Aucun

Solution : (C)

supprimer et rm , les deux peuvent être utilisés pour effacer l'espace de travail. Par conséquent, l'option C est la bonne solution.

21) “dplyr” est l'un des packages les plus populaires utilisés dans R pour manipuler des données et il contient 5 fonctions principales pour gérer les données. Lequel des éléments suivants ne fait pas partie des fonctions principales du package dplyr ?

Solution: (RÉ)

sommaire est une fonction du package de base R et non dplyr.

Contexte – Question 22

Lors de la sélection des fonctionnalités à l'aide de la trame de données suivante (table nommée), “Column1” et “Column2” se sont avérés non significatifs. Par conséquent, nous ne voudrions pas intégrer ces deux caractéristiques dans notre modèle prédictif.

Colonne1 Colonne2 Colonne3 Colonne4 Colonne5 Colonne6
Nom1 Alpha 12 24 54 0 Alpha
Nom2 Bêta 16 32 51 1 Bêta
Nom3 Alpha 52 104 32 0 Gamma
Nom4 Bêta 36 72 84 1 Delta
Nom5 Bêta 45 90 32 0 Phi
Nom6 Alpha 12 24 12 0 Zêta
Nom7 Bêta 32 64 64 1 Sigma
Nom8 Alpha 42 84 54 0 Mu
Nom9 Alpha 56 112 31 1 Eta

22) Laquelle des commandes suivantes sélectionnera toutes les lignes de la colonne 3 à la colonne 6 pour le cadre de données nommé table ci-dessous ?

Les options A, B et C sont des méthodes de réglage de sous-colonne différentes dans R. Par conséquent, l'option D est la bonne solution.

Contexte Question 23-24

Colonne1 Colonne2 Colonne3 Colonne4 Colonne5 Colonne6
Nom1 Alpha 12 24 54 0 Alpha
Nom2 Bêta 16 32 51 1 Bêta
Nom3 Alpha 52 104 32 0 Gamma
Nom4 Bêta 36 72 84 1 Delta
Nom5 Bêta 45 90 32 0 Phi
Nom6 Alpha 12 24 12 0 Zêta
Nom7 Bêta 32 64 64 1 Sigma
Nom8 Alpha 42 84 54 0 Mu
Nom9 Alpha 56 112 31 1 Eta

23) Laquelle des commandes suivantes sélectionnera les lignes ayant des valeurs “Alpha” dans “Column1” et une valeur inférieure à 50 dans “Column4” ? La trame de données est stockée dans une variable nommée table.

A) dplyr::filter(table,Column1==’Alpha’, Column4<50)

B) dplyr::filter(table,Column1==’Alpha’ & Column4<50)

Solution: (C)

  1. la fonction de filtre dans le package dplyr utilise ",” et “&” pour ajouter la condition. Par conséquent, l'option C est la bonne solution.

Contexte des questions 23-24

Colonne1 Colonne2 Colonne3 Colonne4 Colonne5 Colonne6
Nom1 Alpha 12 24 54 0 Alpha
Nom2 Bêta 16 32 51 1 Bêta
Nom3 Alpha 52 104 32 0 Gamma
Nom4 Bêta 36 72 84 1 Delta
Nom5 Bêta 45 90 32 0 Phi
Nom6 Alpha 12 24 12 0 Zêta
Nom7 Bêta 32 64 64 1 Sigma
Nom8 Alpha 42 84 54 0 Mu
Nom9 Alpha 56 112 31 1 Eta

24) Lequel des codes suivants triera la trame de données en fonction de “Column2” dans l'ordre croissant et de “Column3” dans l'ordre décroissant ?

Solution: (C)

Les fonctions d'ordre et d'arrangement peuvent être utilisées pour ordonner les colonnes dans R. Par conséquent, l'option C est la bonne solution.

25) Le traitement des chaînes est une partie importante de l'analyse de texte et la division d'une chaîne est souvent l'une des tâches courantes effectuées lors de la création de jetons, etc. Quel sera le résultat des commandes suivantes ?

Solution : (B)

c(A.B) concaténerait A=”alpha beta gamma” et B=”phithetazeta” séparés par un espace blanc. Lors de l'utilisation de strsplit, les deux chaînes seront séparées au niveau de l'espace blanc entre A et B en deux listes. Parts[[1]][2] nous dit d'imprimer le deuxième sous-élément du premier élément de la liste qui est "beta". Par conséquent, l'option B est la bonne solution.

26) Quelle sera la sortie de la commande suivante

A) [FAUX VRAI VRAI FAUX VRAI]

B) [FAUX VRAI VRAI FAUX FAUX]

C) [FAUX FAUX VRAI FAUX FAUX]

Solution: (C)

La commande ci-dessus ira pour la correspondance exacte de l'argument passé et donc l'option C est la bonne solution.

Contexte des questions 27

Parfois, en tant que Data Scientist travaillant sur des données textuelles, nous rencontrons des cas où nous trouvons plusieurs occurrences d'un mot qui est indésirable. Vous trouverez ci-dessous une de ces chaînes.

Solution: (UNE)

La sous-commande ne remplacera que la première occurrence dans une chaîne alors que regexec renverra une liste des positions de la correspondance ou -1 si aucune correspondance ne se produit. Par conséquent, l'option A est la bonne solution.

28) Imaginez une trame de données créée via le code suivant.

Laquelle des commandes suivantes nous aidera à supprimer les lignes en double en fonction des deux colonnes ?

Toutes les méthodes ci-dessus sont différentes manières de supprimer les lignes en double en fonction des deux colonnes. Par conséquent, l'option D est la bonne solution.

Contexte des questions 29

Le regroupement est une activité importante dans l'analyse de données et il nous aide à découvrir des tendances intéressantes qui peuvent ne pas être facilement visibles dans les données brutes.

Supposons que vous ayez un ensemble de données créé par les lignes de code suivantes.

29) Laquelle des commandes suivantes nous aidera à calculer la valeur moyenne de la barre regroupée par variable foo ?

Toutes les méthodes ci-dessus sont utilisées pour calculer la statistique groupée d'une colonne. Par conséquent, l'option D est la bonne solution.

30) Si j'ai deux vecteurs x<-c(1,3, 5) et y<-c(3, 2), qu'est-ce qui est produit par l'expression cbind(x, y) ?

A) une matrice avec 2 colonnes et 3 lignes

B) une matrice avec 3 colonnes et 2 lignes

C) un bloc de données avec 2 colonnes et 3 lignes

D) un bloc de données avec 3 colonnes et 2 lignes

Solution: (RÉ)

Toutes les options ci-dessus définissent des données désordonnées et, par conséquent, l'option D est la bonne solution.

31) Laquelle des commandes suivantes convertira la trame de données suivante nommée maverick en celle indiquée en bas ?

Cadre de données d'entrée – “maverick”

Classe Homme Femelle
UNE 10 15
B 20 15
UNE 30 35

Cadre de données de sortie

Classe Sexe Compter
UNE Homme 10
UNE Femelle 15
B Homme 30
B Femelle 15
UNE Homme 30
UNE Femelle 35

A) tidyr :: Rassembler (non-conformiste, sexe, compte,-grade)

B) tidyr :: spread (non-conformiste, sexe, compte,-grade

C) tidyr::collect(non-conformiste, sexe, nombre,-grade)

Solution: (UNE)

La commande Spread convertit les lignes en colonnes alors qu'il n'y a pas de commande collect dans tidyr ou le package de base.

Par conséquent, l'option A est la bonne solution.

32) Laquelle des commandes suivantes nous aidera à remplacer chaque instance de Delhi par Delhi_NCR dans le vecteur de caractères suivant ?

Bien que la sous-commande ne remplace que la première occurrence d'un motif. Dans ce cas, les cordes n'ont qu'une seule apparence de Delhi. Par conséquent, les commandes gsub et sub fonctionneront dans cette situation. Par conséquent, l'option C est la bonne solution.

Contexte des questions 33

Parfois, la création d'une caractéristique qui représente si une autre variable a des valeurs manquantes ou non peut s'avérer très utile pour un modèle prédictif.

Vous trouverez ci-dessous une trame de données qui a des valeurs manquantes dans l'une de ses colonnes.

Caractéristique1 Caractéristique2
B N / A
C 30
40
E 50


33) Laquelle des commandes suivantes créera une colonne nommée “missing” avec la valeur 1 où la variable “Feature2” a des valeurs manquantes ?

Caractéristique1 Caractéristique2 Disparu
B N / A 1
C 30 0
40 0
E 50 0

L'option C est la bonne réponse.

34) Supposons qu'il y ait 2 dataframes “A” et “B”. A a 34 lignes et B a 46 lignes. Quel sera le nombre de lignes dans la trame de données résultante après l'exécution de la commande suivante ?

all.x force la fusion à avoir lieu sur la base de A et contiendra donc le même nombre de lignes que A. Par conséquent, l'option C est la bonne solution.

Contexte de la question 35

La toute première chose qu'un Data Scientist fait généralement après le chargement de l'ensemble de données est de trouver le nombre de lignes et de colonnes que l'ensemble de données possède. En termes techniques, cela s'appelle connaître les dimensions de l'ensemble de données. Ceci est fait pour avoir une idée de l'échelle des données qu'il traite et ensuite choisir les bonnes techniques et les bons outils.

35) Laquelle des commandes suivantes ne nous aidera pas à visualiser les dimensions de notre jeu de données ?

Solution: (C)

La commande Afficher imprimera l'ensemble de données sur la console dans un format semblable à une feuille de calcul, mais ne nous aidera pas à afficher les dimensions. Par conséquent, l'option C est la bonne solution.

Contexte de la question 36

Parfois, nous sommes confrontés à une situation où nous avons deux colonnes d'un ensemble de données et nous souhaitons savoir quels éléments de la colonne ne sont pas présents dans une autre colonne. Ceci est facilement réalisé dans R en utilisant la commande setdiff.

Colonne1 Colonne2 Colonne3 Colonne4 Colonne5 Colonne6
Nom1 Alpha 12 24 54 0 Sion
Nom2 Bêta 16 32 51 1 Bêta
Nom3 Alpha 52 104 32 0 Gamma
Nom4 Bêta 36 72 84 1 Delta
Nom5 Bêta 45 90 32 0 Phi
Nom6 Alpha 12 24 12 0 Zêta
Nom7 Bêta 32 64 64 1 Sigma
Nom8 Alpha 42 84 54 0 Mu
Nom9 Alpha 56 112 31 1 Eta

36) Quelle sera la sortie de la commande suivante ?

Solution: (B)

L'ordre des arguments est important dans la fonction setdiff. Par conséquent, l'option B est la bonne solution.

Contexte de la question 37

L'ensemble de données ci-dessous est stocké dans une variable appelée “cadre”.

UNE B
alpha 100
bêta 120
gamma 80
delta 110

37) Laquelle des commandes suivantes créera un graphique à barres pour l'ensemble de données ci-dessus. Utilisez les valeurs de la colonne B pour représenter la hauteur du graphique à barres.

stat="identity" garantira que les valeurs de la colonne B deviennent la hauteur de la barre. Par conséquent, l'option A est la bonne solution.

Contexte de la question 38

UNE mpg cylindre afficher ch idiot poids qsec vs un m équipement glucides
Mazda RX4 21.0 6 160 110 3.90 2.620 16.46 0 1 4 4
Mazda RX4 Wag 21.0 6 160 110 3.90 2.875 17.02 0 1 4 4
Datsun 710 22.8 4 108 93 3.85 2.320 18.61 1 1 4 1
Hornet Drive 21.4 6 258 110 3.08 3.215 19.44 1 0 3 1
Hornet Sportabout 18.7 8 360 175 3.15 3.440 17.02 0 0 3 2
Vaillant 18.1 6 225 105 2.76 3.460 20.22 1 0 3 1

38) Nous souhaitons créer un graphique à barres empilées pour la variable cyl avec des critères d'empilement Être vs Variable. Laquelle des commandes suivantes nous aidera à effectuer cette action ?

Les deux options A et B créeront un graphique à barres empilées guidé par le paramètre « remplir ». Par conséquent, l'option C est la bonne solution.

39) Quelle est la sortie de la commande – paste(1:3,c(“x”,,”y”,”z”),sep="”) ?

Contexte de la question 40

R a une riche réserve de bibliothèque pour dessiner certains des graphiques et des tracés très haut de gamme et bien des fois, vous souhaitez enregistrer les graphiques pour présenter vos résultats à quelqu'un d'autre. L'enregistrement de vos tracés dans un fichier PDF est l'une de ces options.

40) Si vous souhaitez enregistrer un tracé dans un fichier PDF, laquelle des propositions suivantes est la bonne manière de procéder ?

A) Construisez le tracé sur le périphérique d'écran, puis copiez-le dans un fichier PDF avec dev.copy2pdf().

B) Construisez le tracé sur le périphérique PNG avec png(), puis copiez-le dans un PDF avec dev.copy2pdf().

C) Ouvrez le périphérique PostScript avec postscript(), construisez le tracé, puis fermez le périphérique avec dev.off().

D) Ouvrez le périphérique screen avec quartz(), construisez le tracé, puis fermez le périphérique avec dev.off().

Les tracés sont d'abord créés sur l'appareil à écran, puis peuvent être facilement copiés dans un fichier pdf. Par conséquent, l'option A est la bonne solution.

Notes de fin

Si vous apprenez R, vous devriez utiliser le test ci-dessus pour vérifier vos compétences en R. Si vous avez des questions ou des doutes, n'hésitez pas à les poster ci-dessous.

Apprenez, concourez, piratez et soyez embauché !


Types de variables en science des données et analyse statistique

Une solution optimisée à un problème du monde réel modélisé comme un cas d'utilisation de la science des données dépend d'une multitude de facteurs. Le plus important d'entre eux serait l'analyse exploratoire des données, l'ingénierie des fonctionnalités et la sélection d'algorithmes. Tous ces éléments dépendent fortement de la compréhension des données dans leur ensemble, des variables indépendantes (caractéristiques) et de la variable dépendante (variable de résultat).

D'un point de vue statistique, l'analyse des ensembles de données correspondant à un problème typique de science des données montrera que les valeurs de ces variables relèvent globalement de 2 catégories - catégorielles ou numériques. Les variables catégorielles peuvent être binaires, nominales ou ordinales alors que les variables numériques peuvent être discrètes ou continues.

VARIABLES CATÉGORIELLES

Variables dichotomiques (ou binaires) – Les valeurs correspondant à ces variables ne relèvent que de 2 catégories. Exemple : Si une variable particulière documente les réponses à une question « Avez-vous déjà été à Rome » avec deux options de réponse « Oui » ou « Non », alors cela peut être appelé une variable binaire.

Variables nominales — Les valeurs appartiennent à deux ou plusieurs catégories, mais sans ordre spécifique. Exemple : Si une variable documente les réponses à une question « Nommez le pays dans lequel vous résidez », il pourrait y avoir de nombreuses réponses distinctes à cette question et les réponses n'auront aucun ordre qui leur sera attribué. Cela peut être un exemple de variable nominale.

Variables ordinales — Les valeurs correspondant aux variables ordinales relèvent de 2 catégories ou plus comme les variables nominales, mais les catégories suivront un certain ordre intrinsèque. Exemple : Si une variable correspond au plus haut niveau d'éducation d'une personne et peut prendre les valeurs Lycée, Associate Degree, Bachelor, Master, Ph.D, etc., alors cela peut être considéré comme une variable ordinale suivant un ordre spécifique à partir du niveau d'éducation le plus bas ( Lycée) au plus haut niveau d'éducation (Ph.D).

VARIABLES NUMERIQUES

Variables discrètes — Les variables numériques discrètes suivent généralement une distribution statistique discrète et ne peuvent prendre que des valeurs numériques spécifiques. Exemple : si une variable correspond aux différents résultats possibles du lancer de dés, il pourrait n'y avoir que 6 valeurs possibles — de 1 à 6. Ceci est un exemple de variable numérique discrète.

Variables continues — Les variables numériques continues suivent une distribution continue et peuvent prendre n'importe quelle valeur numérique réelle dans une plage de valeurs finie ou infinie. Exemple : Si une variable documente la température corporelle d'une personne, les valeurs possibles peuvent être 99,20 F, 97,90 F, 102,40 F, etc. et peuvent être un exemple de variable numérique continue.

Quel type des types de variables ci-dessus est le plus souvent observé dans les ensembles de données utilisés pour l'apprentissage automatique ou la science des données ? Catégorique, numérique, combinaison des deux - les réponses peuvent varier en fonction de l'expérience de chaque data scientist. Alors que l'ensemble de données avec lequel le data scientist commence peut avoir tous ces différents types de variables, il est important de faire une sélection efficace des fonctionnalités pour choisir ce qui est important pour le cas d'utilisation à portée de main et faire de l'ingénierie des fonctionnalités pour convertir une forme en une autre chaque fois que nécessaire. pour s'assurer que le modèle d'apprentissage automatique atteint des performances optimales.


7.7 appels ggplot2

Au fur et à mesure que nous passerons à ces chapitres d'introduction, nous passerons à une expression plus concise du code ggplot2. Jusqu'à présent, nous avons été très explicites, ce qui est utile lorsque vous apprenez :

En règle générale, le ou les premiers arguments d'une fonction sont si importants que vous devez les connaître par cœur. Les deux premiers arguments de ggplot() sont data et mapping , et les deux premiers arguments de aes() sont x et y . Dans le reste du livre, nous ne fournirons pas ces noms. Cela permet d'économiser de la saisie et, en réduisant la quantité de passe-partout, permet de voir plus facilement ce qui est différent entre les tracés. C'est une préoccupation de programmation très importante sur laquelle nous reviendrons dans les fonctions.

La réécriture de l'intrigue précédente de manière plus concise donne :

Parfois, nous allons transformer la fin d'un pipeline de transformation de données en un tracé. Surveillez le passage de %>% à + . J'aurais aimé que cette transition ne soit pas nécessaire, mais malheureusement, ggplot2 a été créé avant que le tuyau ne soit découvert.


3.7 Visualisation des données en 2D : nuages ​​de points

Les diagrammes de dispersion sont utiles pour visualiser les comparaisons traitement-réponse (comme dans la figure 3.3), les associations entre les variables (comme dans la figure 3.10) ou les données appariées (par exemple, un biomarqueur de la maladie chez plusieurs patients avant et après le traitement). Nous utilisons les deux dimensions de notre papier à tracer, ou écran, pour représenter les deux variables. Jetons un coup d'œil à l'expression différentielle entre un échantillon de type sauvage et un échantillon FGF4-KO.

Figure 3.25 : Nuage de points des mesures d'expression de 45101 pour deux des échantillons.

Les étiquettes 59 E4.5 (PE) et 92 E4.5 (FGF4-KO) font référence aux noms de colonnes (noms d'échantillons) dans le dataframe dfx , que nous avons créé ci-dessus. Puisqu'ils contiennent des caractères spéciaux (espaces, parenthèses, tiret) et commencent par des chiffres, nous devons les entourer de guillemets inclinés vers le bas pour les rendre syntaxiquement digestes pour R. Le tracé est illustré à la figure 3.25. Nous obtenons un nuage de points dense que nous pouvons essayer d'interpréter à la périphérie du nuage, mais nous n'avons vraiment aucune idée visuelle de la façon dont les données sont réparties dans les régions les plus denses du tracé.

Un moyen simple d'améliorer le surtracé consiste à ajuster la transparence (valeur alpha) des points en modifiant le paramètre alpha de geom_point (Figure 3.26).

Figure 3.26 : Comme la figure 3.25, mais avec des points semi-transparents pour résoudre certains des surtracés.

C'est déjà mieux que la figure 3.25, mais dans les régions les plus denses, même les points semi-transparents se superposent rapidement à une masse noire sans relief, tandis que les points périphériques plus isolés s'estompent.Une alternative est un tracé de contour de la densité 2D, qui a l'avantage supplémentaire de ne pas rendre tous les points sur le tracé, comme dans la figure 3.27.

Figure 3.27 : Comme la Figure 3.25, mais rendu comme un tracé de contour de l'estimation de densité 2D.

Cependant, on voit sur la figure 3.27 que le nuage de points en bas à droite (qui contient un nombre relativement faible de points) n'est plus représenté. Nous pouvons quelque peu surmonter cela en ajustant les paramètres de bande passante et de binning de geom_density2d (Figure 3.28, panneau de gauche).

Figure 3.28 : Gauche : comme la Figure 3.27, mais avec une bande passante de lissage plus petite et un regroupement plus serré pour les lignes de contour. À droite : avec remplissage de couleur.

Nous pouvons remplir chaque espace entre les courbes de niveau avec la densité relative de points en appelant explicitement la fonction stat_density2d (pour laquelle geom_density2d est un wrapper) et en utilisant l'objet géométrique polygone, comme dans le panneau de droite de la figure 3.28.

Nous avons utilisé la fonction brewer.pal du package RColorBrewer pour définir l'échelle de couleurs, et nous avons ajouté un appel à coord_fixed pour fixer le rapport hauteur/largeur du tracé, pour s'assurer que le mappage de la plage de données vers (x) - et (y) -coordinates est le même pour les deux variables. Ces deux problèmes méritent un examen plus approfondi, et nous parlerons davantage des formes de tracé dans la section 3.7.1 et des couleurs dans la section 3.9.

Les méthodes de traçage basées sur la densité de la figure 3.28 sont visuellement plus attrayantes et interprétables que les nuages ​​de points surtracés des figures 3.25 et 3.26, bien que nous devions être prudents en les utilisant car nous perdons une grande partie des informations sur les points aberrants dans les régions les plus clairsemées de la parcelle. Une possibilité consiste à utiliser geom_point pour rajouter de tels points.

Mais sans doute la meilleure alternative, qui évite les limitations du lissage, est le binning hexagonal (Carr et al. 1987) .

Figure 3.29 : Binning hexagonal. A gauche : paramètres par défaut. À droite : tailles de bac plus fines et échelle de couleurs personnalisée.

3.7.1 Formes de tracé

Choisir la bonne forme pour votre parcelle est important pour vous assurer que l'information est bien transmise. Par défaut, le paramètre de forme, c'est-à-dire le rapport entre la hauteur du graphe et sa largeur, est choisi par ggplot2 en fonction de l'espace disponible dans le périphérique de traçage actuel. La largeur et la hauteur de l'appareil sont précisées lors de son ouverture dans R, soit explicitement par vous, soit via les paramètres par défaut 47 47 Voir par exemple les pages de manuel des fonctions pdf et png. . De plus, les dimensions du graphique dépendent également de la présence ou de l'absence de décorations supplémentaires, comme les barres d'échelle de couleurs de la figure 3.29.

Il existe deux règles simples que vous pouvez appliquer pour les nuages ​​de points :

Si les variables sur les deux axes sont mesurées dans les mêmes unités, assurez-vous que le même mappage de l'espace de données à l'espace physique est utilisé - c'est-à-dire, utilisez coord_fixed . Dans les diagrammes de dispersion ci-dessus, les deux axes sont le logarithme en base 2 des mesures du niveau d'expression, c'est-à-dire qu'un changement d'une unité a la même signification sur les deux axes (un doublement du niveau d'expression). Un autre cas est l'analyse en composantes principales (ACP), où l'axe (x) représente généralement la composante 1 et l'axe (y) la composante 2. Puisque les axes proviennent d'une rotation orthonormée de l'espace de données d'entrée, nous veulent s'assurer que leurs échelles correspondent. Étant donné que la variance des données est (par définition) plus petite le long du deuxième composant que le long du premier composant (ou au plus égale), les graphiques PCA bien faits ont généralement une largeur supérieure à la hauteur.

Si les variables sur les deux axes sont mesurées dans des unités différentes, alors nous pouvons toujours les relier les unes aux autres en comparant leurs dimensions. La valeur par défaut dans de nombreuses routines de traçage dans R, y compris ggplot2, consiste à examiner la plage des données et à la mapper sur la région de traçage disponible. Cependant, en particulier lorsque les données suivent plus ou moins une ligne, il peut être utile de regarder la pente typique de la ligne. C'est appelé bancaire (William S. Cleveland, McGill et McGill 1988) .

Pour illustrer les opérations bancaires, utilisons les données classiques sur les taches solaires de l'article de Cleveland.

Figure 3.30 : Les données de taches solaires. Dans le panneau supérieur, la forme du tracé est à peu près quadratique, un choix par défaut fréquent. Dans le panneau inférieur, une technique appelée bancaire a été utilisé pour choisir la forme de la parcelle. (Remarque : le placement des étiquettes de coche n'est pas idéal dans ce tracé et bénéficierait d'une personnalisation.)

Le graphique résultant est montré dans le panneau supérieur de la figure 3.30. Nous pouvons clairement voir des fluctuations à long terme de l'amplitude des cycles d'activité des taches solaires, avec des activités maximales particulièrement faibles au début des années 1700, au début des années 1800 et au tournant du 20 (^ ext) siècle. Mais maintenant, essayons la banque.

Comment fonctionne l'algorithme ? Il vise à faire en sorte que les pentes de la courbe soient d'environ un. En particulier, bank_slopes calcule la pente absolue médiane, puis avec l'appel à coord_fixed, nous définissons le rapport hauteur/largeur du tracé de telle sorte que cette quantité devienne 1. Le résultat est affiché dans le panneau inférieur de la figure 3.30. Assez contre-intuitivement, même si l'intrigue prend beaucoup moins de place, on en voit plus ! En particulier, nous pouvons voir la forme en dents de scie des cycles des taches solaires, avec de fortes hausses et des baisses plus lentes.


10.3 Impression

Les blocs de données ont une méthode d'impression raffinée qui n'affiche que les 5 premières et dernières lignes, et toutes les colonnes qui tiennent à l'écran. Cela facilite grandement le travail avec des données volumineuses.

Les blocs de données sont conçus pour que vous ne submergez pas accidentellement votre console lorsque vous imprimez des blocs de données volumineux. Mais parfois, vous avez besoin de plus de sortie que l'affichage par défaut. Il existe quelques options qui peuvent vous aider.

Tout d'abord, vous pouvez renvoyer le bloc de données à l'aide de .head() sur le bloc de données et contrôler le nombre de lignes ( n ) de l'affichage. Dans la visionneuse Python interactive de VS Code, vous pouvez faire défiler pour voir les autres colonnes.

Vous pouvez également contrôler le comportement d'impression par défaut en définissant des options :

pd.set_option("display.max_rows", 101) : si plus de 101 lignes, n'affiche que n lignes.

pd.set_option('precision', 5) définira le nombre de décimales affichées.

Vous pouvez voir une liste complète des options en consultant l'aide de pandas.

10.3.1 Sous-ensemble

Jusqu'à présent, tous les outils que vous avez appris ont fonctionné avec des blocs de données complets. Si vous souhaitez extraire une seule variable, vous avez besoin de nouveaux outils, [ . [ peut extraire par nom ou poste.


Voir la vidéo: Javascript Variables u0026 Data Types. Javascript Tutorial For Beginners (Mai 2022).