Przykładowe rozwiązania | Język R i uczenie maszynowe

Język R

Do zmiennej a podstaw wartość wyrażenia 2 ^ 5. Do zmiennej b podstaw potrojoną wartość zmiennej a. Wywołaj funkcję sprawdzającą, która z wartości zmiennych jest mniejsza.

> a <- 2 ^ 5 > b <- a * 3 > min(a, b) [1] 32

1
2
3
4

> a <- 2 ^ 5
> b <- a * 3
> min(a, b)
[1] 32
Uruchom i poczytaj dokumentacje dla funkcji mean().

> help(mean)

1

> help(mean)

> ??mean

1

> ??mean
Stwórz wektor a zawierający liczby od 1 od 10. Policz średnią liczb zawartych w wektorze.

> a <- c(1, 2, 3, 4, 5, 6, 7, 8, 9, 10) > sum(a)/length(a) [1] 5.5

1
2
3

> a <- c(1, 2, 3, 4, 5, 6, 7, 8, 9, 10)
> sum(a)/length(a)
[1] 5.5

Oba rozwiązania są równoważne, ale drugie jest sprytniejsze i wykorzystuje sekwencje oraz wbudowaną funkcję obliczającą średnią.

> a <- 1:10 > mean(a) [1] 5.5

1
2
3

> a <- 1:10
> mean(a)
[1] 5.5

Wyświetl wszystkie funkcje zawierające frazę mean w swojej nazwie.

> apropos("mean", mode = "function")
 [1] ".colMeans"       ".rowMeans"       "colMeans"       
 [4] "kmeans"          "mean"            "mean.Date"      
 [7] "mean.default"    "mean.difftime"   "mean.POSIXct"   
[10] "mean.POSIXlt"    "raw.means.plot"  "raw.means.plot2"
[13] "rowMeans"        "weighted.mean"

> apropos("mean", mode = "function")

[1] ".colMeans" ".rowMeans" "colMeans"

[4] "kmeans" "mean" "mean.Date"

[7] "mean.default" "mean.difftime" "mean.POSIXct"

[10] "mean.POSIXlt" "raw.means.plot" "raw.means.plot2"

[13] "rowMeans" "weighted.mean"

Wynik powyższej funkcji może się różnić w zależności od załadowanych pakietów.

Ustaw dowolny katalog roboczy. Następnie stwórz zmienną a zawierającą łańcuch znaków “ala ma kota”. Zapisz zmienną a z obszaru roboczego do pliku w katalogu roboczym. Następnie usuń zmienną a. Sprawdź wartość zmiennej a (powinno jej brakować). Na końcu wczytaj plik ze zmienną a i sprawdź jej wartość.

> setwd("D:/Studia AGH/Notatki w internecie/")
> a <- "ala ma kota"
> save(a, file = "ala.RData")
> remove(a)
> a
Error: object 'a' not found
> load("ala.RData")
> a
[1] "ala ma kota"

> setwd("D:/Studia AGH/Notatki w internecie/")

> a <- "ala ma kota"

> save(a, file = "ala.RData")

> remove(a)

> a

Error: object 'a' not found

> load("ala.RData")

> a

[1] "ala ma kota"

Zainstaluj i załaduj pakiet gridExtra, który umożliwia m.in ładną wizualizacje danych tabelarycznych. Następnie przy pomocy dokumentacji pakietu znajdź funkcję do wizualizacji danych tabelarycznych. Użyj jej na pierwszych 10 wierszach zbioru danych iris.

> install.packages("gridExtra") > library(gridExtra) > help(package = "gridExtra") > grid.table(iris[1:10, ])

1
2
3
4

> install.packages("gridExtra")
> library(gridExtra)
> help(package = "gridExtra")
> grid.table(iris[1:10, ])

Wynik wizualizacji powinien wyglądać następująco:
Stwórz wektor zawierający ciąg liczb 10, 12, 14… 20.

> seq(10, 20, 2) [1] 10 12 14 16 18 20

1
2

> seq(10, 20, 2)
[1] 10 12 14 16 18 20
Stwórz wektora a z liczbami od 1 do 3 oraz wektor b z liczbami od 4 do 6. Utwórz nowy wektory d będący połączeniem wektora b i a (w takiej kolejności). Wyświetl go.

> a <- 1:3 > b <- 4:6 > d <- c(b, a) > d [1] 4 5 6 1 2 3

1
2
3
4
5

> a <- 1:3
> b <- 4:6
> d <- c(b, a)
> d
[1] 4 5 6 1 2 3

Stwórz wektor imię zawierający imiona trójki Twoich przyjaciół. Potem stwórz wektor wiek zawierający kolejno wiek Twojej trójki przyjaciół. Następnie stwórz ramkę danych osoby złożoną z wektorów imię (łańcuchy znaków!) oraz wiek. Wylicz średnią wieku przyjaciół.

> imię <- c("Marcela", "Zosia", "Wacław")
> wiek <- c(17, 23, 35)
> osoby <- data.frame(imię, wiek, stringsAsFactors = FALSE)
> osoby
     imię wiek
1 Marcela   17
2   Zosia   23
3  Wacław   35
> mean(osoby$wiek)
[1] 25

> imię <- c("Marcela", "Zosia", "Wacław")

> wiek <- c(17, 23, 35)

> osoby <- data.frame(imię, wiek, stringsAsFactors = FALSE)

> osoby

imię wiek

1 Marcela 17

2 Zosia 23

3 Wacław 35

> mean(osoby$wiek)

[1] 25

Do stworzonej w poprzednim zadaniu ramki danych osoby dodaj wpis zawierający Twoje imię i wiek. Wylicz średnią wieku ponownie.

> moje_dane <- data.frame(imię = "Patryk", wiek = 25)
> moje_dane
    imię wiek
1 Patryk   25
> osoby <- rbind(osoby, moje_dane)
> osoby
     imię wiek
1 Marcela   17
2   Zosia   23
3  Wacław   35
4  Patryk   25
> mean(osoby$wiek)
[1] 25
>

> moje_dane <- data.frame(imię = "Patryk", wiek = 25)

> moje_dane

imię wiek

1 Patryk 25

> osoby <- rbind(osoby, moje_dane)

> osoby

imię wiek

1 Marcela 17

2 Zosia 23

3 Wacław 35

4 Patryk 25

> mean(osoby$wiek)

[1] 25

Korzystając z ramki danych osoby dodaj nową kolumnę określając płeć osób. Wpisz do kolumny odpowiednio “mężczyzna” bądź “kobieta”. Dodana kolumna łańcuchów znaków powinna się automatycznie przekonwertować do cech jakościowych (tzw. factors). Wylicz średnią wieku każdej z płci.

> płeć <- c("kobieta", "kobieta", "mężczyzna", "mężczyzna")
> osoby <- cbind(osoby, płeć)
> osoby
     imię wiek      płeć
1 Marcela   17   kobieta
2   Zosia   23   kobieta
3  Wacław   35 mężczyzna
4  Patryk   25 mężczyzna
> osoby$płeć
[1] kobieta   kobieta   mężczyzna mężczyzna
Levels: kobieta mężczyzna
> tapply(osoby$wiek, osoby$płeć, mean)
  kobieta mężczyzna 
       20        30

> płeć <- c("kobieta", "kobieta", "mężczyzna", "mężczyzna")

> osoby <- cbind(osoby, płeć)

> osoby

imię wiek płeć

1 Marcela 17 kobieta

2 Zosia 23 kobieta

3 Wacław 35 mężczyzna

4 Patryk 25 mężczyzna

> osoby$płeć

[1] kobieta kobieta mężczyzna mężczyzna

Levels: kobieta mężczyzna

> tapply(osoby$wiek, osoby$płeć, mean)

kobieta mężczyzna

20 30

Do ramki danych osoby dodaj kolejne znane Ci osoby. Narysuj na wykresie słupkowym liczebność reprezentantów każdej z płci.

> imię <- c("Dominika", "Małgosia")
> wiek <- c(24, 37)
> płeć <- rep(factor("kobieta"), 2)
> nowe_osoby <- data.frame(imię, wiek, płeć)
> osoby <- rbind(osoby, nowe_osoby)
> osoby
      imię wiek      płeć
1 Marcela    17 kobieta
2 Zosia      23 kobieta
3 Wacław     35 mężczyzna
4 Patryk     25 mężczyzna
5 Dominika    24 kobieta
6 Małgosia   37 kobieta
> liczebnosc <- table(osoby$płeć)
> liczebnosc

 kobieta mężczyzna 
       4         2 
> barplot(liczebnosc)

> imię <- c("Dominika", "Małgosia")

> wiek <- c(24, 37)

> płeć <- rep(factor("kobieta"), 2)

> nowe_osoby <- data.frame(imię, wiek, płeć)

> osoby <- rbind(osoby, nowe_osoby)

> osoby

imię wiek płeć

1 Marcela 17 kobieta

2 Zosia 23 kobieta

3 Wacław 35 mężczyzna

4 Patryk 25 mężczyzna

5 Dominika 24 kobieta

6 Małgosia 37 kobieta

> liczebnosc <- table(osoby$płeć)

> liczebnosc

kobieta mężczyzna

4 2

> barplot(liczebnosc)

Wynikiem jest następujący wykres:

Wykorzystując ramkę danych osoby pokaż procentowy udział obu płci przy pomocy wykresu kołowego oraz wachlarzowego.

> liczebnosc <- table(osoby$płeć)
> procenty <- liczebnosc / sum(liczebnosc)
> pie(procenty)
> library(plotrix)
> fan.plot(liczebnosc, labels = names(liczebnosc))

> liczebnosc <- table(osoby$płeć)

> procenty <- liczebnosc / sum(liczebnosc)

> pie(procenty)

> library(plotrix)

> fan.plot(liczebnosc, labels = names(liczebnosc))

Wynikiem są następujące wykresy:

Do ramki danych osoby dodaj nową kolumnę status z wartościami: “pełnoletność”, “niepełnoletność” w zależności od wieku osoby. Zamień dodaną kolumnę na cechy jakościowe. Następnie przy pomocy wykresu kołowego wyrysuj procentowy udział osób o konkretnym statusie.

> osoby[, "status"] <- ifelse(osoby$wiek >= 18, "pełnoletność","niepełnoletność")
> osoby
      imię wiek      płeć          status
1  Marcela   17   kobieta niepełnoletność
2    Zosia   23   kobieta    pełnoletność
3   Wacław   35 mężczyzna    pełnoletność
4   Patryk   25 mężczyzna    pełnoletność
5  Dominka   24   kobieta    pełnoletność
6 Małgosia   37   kobieta    pełnoletność
> osoby$status <- factor(osoby$staus)
> pie(table(osoby$status))

> osoby[, "status"] <- ifelse(osoby$wiek >= 18, "pełnoletność","niepełnoletność")

> osoby

imię wiek płeć status

1 Marcela 17 kobieta niepełnoletność

2 Zosia 23 kobieta pełnoletność

3 Wacław 35 mężczyzna pełnoletność

4 Patryk 25 mężczyzna pełnoletność

5 Dominka 24 kobieta pełnoletność

6 Małgosia 37 kobieta pełnoletność

> osoby$status <- factor(osoby$staus)

> pie(table(osoby$status))

Wynikiem jest następujący wykres:

Wykorzystując ramkę danych osoby stwórz zdanie o każdej z osób postaci: imię + ” ma status ” + status + ” bo ma ” + wiek + ” lat”. Plus oznacza konkatenacje łańcuchów i wartości.

> paste(osoby$imię, "ma status", osoby$status, "bo ma", osoby$wiek, "lat!")
[1] "Marcela ma status niepełnoletność bo ma 17 lat!"
[2] "Zosia ma status pełnoletność bo ma 23 lat!"     
[3] "Wacław ma status pełnoletność bo ma 35 lat!"    
[4] "Patryk ma status pełnoletność bo ma 25 lat!"    
[5] "Dominka ma status pełnoletność bo ma 24 lat!"   
[6] "Małgosia ma status pełnoletność bo ma 37 lat!"

> paste(osoby$imię, "ma status", osoby$status, "bo ma", osoby$wiek, "lat!")

[1] "Marcela ma status niepełnoletność bo ma 17 lat!"

[2] "Zosia ma status pełnoletność bo ma 23 lat!"

[3] "Wacław ma status pełnoletność bo ma 35 lat!"

[4] "Patryk ma status pełnoletność bo ma 25 lat!"

[5] "Dominka ma status pełnoletność bo ma 24 lat!"

[6] "Małgosia ma status pełnoletność bo ma 37 lat!"