Gleichzeitige Schreibleistung von SQLite WAL auf UNIX-Systemen

Question

Bestätigt auf Ubuntu 18.04, nicht unter Windows getestet.

Ich habe Ihr Beispiel vereinfacht und Instrumentierungscode hinzugefügt. Das erste Diagramm zeigt die Anzahl der für jeden Unterprozess geschriebenen Blobs. Im ersten Diagramm zeigen die Plateaus Inaktivität auf allen Kernen für etwa 0,2 Sekunden an, und die steilen Anstiege sind Burst-Schreibvorgänge auf allen Kernen. Das zweite Diagramm zeigt die Rohdaten, die am nützlichsten mit Plotly sind, das in einer StackOverflow-Antwort nicht funktioniert.

Durch die Aktivierung gc()werden die Läufe länger, die Last wird jedoch gleichmäßiger verteilt (siehe zweites Diagramm unten).

Ich habe keine Ahnung, was los ist. Können Sie dieses Setup replizieren und weiter damit experimentieren? Ich würde mich über Feedback hier oder vielleicht im RSQLite-Issue-Tracker freuen.

Grundlauf, ohne`gc()`

make.con <- function() {
  options(digits.secs = 6)

  con <<- DBI::dbConnect(RSQLite::SQLite(), dbname = "db.sqlite")
  DBI::dbExecute(con, "PRAGMA journal_mode = WAL;")
  DBI::dbExecute(con, "PRAGMA busy_timeout = 60000;")
  DBI::dbExecute(con, "PRAGMA synchronous = OFF;")
  DBI::dbExecute(con, "
    CREATE TABLE IF NOT EXISTS tmp (
      id INTEGER NOT NULL,
      blob BLOB NOT NULL,
      PRIMARY KEY (id)
  )")
}
make.con()
#> [1] 0

blob <- serialize(list(rand = runif(1000)), connection = NULL, xdr = FALSE)

fn <- function(x) {
  time0 <- Sys.time()
  rs <- DBI::dbSendQuery(con, "INSERT INTO tmp (blob) VALUES (:blob);")
  time1 <- Sys.time()
  DBI::dbBind(rs, params = list("blob" = list(blob)))
  time2 <- Sys.time()
  DBI::dbClearResult(rs)
  time3 <- Sys.time()
  # gc()
  time4 <- Sys.time()
  list(pid = unix::getpid(), time0 = time0, time1 = time1, time2 = time2, time3 = time3, time4 = time4)
}

n <- 1000L

parallel::setDefaultCluster(parallel::makeCluster(8L))
parallel::clusterExport(varlist = c("make.con", "blob"))
invisible(parallel::clusterEvalQ(expr = {
  make.con()
}))

data <- parallel::parLapply(X = 1:n, fun = fn, chunk.size = 50L)

parallel::stopCluster(cl = parallel::getDefaultCluster())

library(tidyverse)

tbl <-
  data %>%
  transpose() %>%
  map(unlist, recursive = FALSE) %>%
  as_tibble() %>%
  rowid_to_column() %>%
  pivot_longer(-c(rowid, pid), names_to = "step", values_to = "time") %>%
  mutate(time = as.POSIXct(time, origin = "1970-01-01")) %>%
  mutate(pid = factor(pid)) %>%
  arrange(time)

tbl %>%
  group_by(pid) %>%
  mutate(cum = row_number()) %>%
  ungroup() %>%
  ggplot(aes(x = time, y = cum, color = pid)) +
  geom_line()

p <-
  tbl %>%
  ggplot(aes(x = time, y = factor(pid), group = 1)) +
  geom_path() +
  geom_point(aes(color = step))

p

plotly::ggplotly(p)

(Plotly funktioniert nicht auf StackOverflow)

^{Erstellt am 30.01.2020 vonReprex-Paket(Version 0.3.0)}

Ergebnisse mit`gc()`

Answer 1

Bestätigt auf Ubuntu 18.04, nicht unter Windows getestet.

Ich habe Ihr Beispiel vereinfacht und Instrumentierungscode hinzugefügt. Das erste Diagramm zeigt die Anzahl der für jeden Unterprozess geschriebenen Blobs. Im ersten Diagramm zeigen die Plateaus Inaktivität auf allen Kernen für etwa 0,2 Sekunden an, und die steilen Anstiege sind Burst-Schreibvorgänge auf allen Kernen. Das zweite Diagramm zeigt die Rohdaten, die am nützlichsten mit Plotly sind, das in einer StackOverflow-Antwort nicht funktioniert.

Durch die Aktivierung gc()werden die Läufe länger, die Last wird jedoch gleichmäßiger verteilt (siehe zweites Diagramm unten).

Ich habe keine Ahnung, was los ist. Können Sie dieses Setup replizieren und weiter damit experimentieren? Ich würde mich über Feedback hier oder vielleicht im RSQLite-Issue-Tracker freuen.

Grundlauf, ohne`gc()`

make.con <- function() {
  options(digits.secs = 6)

  con <<- DBI::dbConnect(RSQLite::SQLite(), dbname = "db.sqlite")
  DBI::dbExecute(con, "PRAGMA journal_mode = WAL;")
  DBI::dbExecute(con, "PRAGMA busy_timeout = 60000;")
  DBI::dbExecute(con, "PRAGMA synchronous = OFF;")
  DBI::dbExecute(con, "
    CREATE TABLE IF NOT EXISTS tmp (
      id INTEGER NOT NULL,
      blob BLOB NOT NULL,
      PRIMARY KEY (id)
  )")
}
make.con()
#> [1] 0

blob <- serialize(list(rand = runif(1000)), connection = NULL, xdr = FALSE)

fn <- function(x) {
  time0 <- Sys.time()
  rs <- DBI::dbSendQuery(con, "INSERT INTO tmp (blob) VALUES (:blob);")
  time1 <- Sys.time()
  DBI::dbBind(rs, params = list("blob" = list(blob)))
  time2 <- Sys.time()
  DBI::dbClearResult(rs)
  time3 <- Sys.time()
  # gc()
  time4 <- Sys.time()
  list(pid = unix::getpid(), time0 = time0, time1 = time1, time2 = time2, time3 = time3, time4 = time4)
}

n <- 1000L

parallel::setDefaultCluster(parallel::makeCluster(8L))
parallel::clusterExport(varlist = c("make.con", "blob"))
invisible(parallel::clusterEvalQ(expr = {
  make.con()
}))

data <- parallel::parLapply(X = 1:n, fun = fn, chunk.size = 50L)

parallel::stopCluster(cl = parallel::getDefaultCluster())

library(tidyverse)

tbl <-
  data %>%
  transpose() %>%
  map(unlist, recursive = FALSE) %>%
  as_tibble() %>%
  rowid_to_column() %>%
  pivot_longer(-c(rowid, pid), names_to = "step", values_to = "time") %>%
  mutate(time = as.POSIXct(time, origin = "1970-01-01")) %>%
  mutate(pid = factor(pid)) %>%
  arrange(time)

tbl %>%
  group_by(pid) %>%
  mutate(cum = row_number()) %>%
  ungroup() %>%
  ggplot(aes(x = time, y = cum, color = pid)) +
  geom_line()

p <-
  tbl %>%
  ggplot(aes(x = time, y = factor(pid), group = 1)) +
  geom_path() +
  geom_point(aes(color = step))

p

plotly::ggplotly(p)

(Plotly funktioniert nicht auf StackOverflow)

^{Erstellt am 30.01.2020 vonReprex-Paket(Version 0.3.0)}

Gleichzeitige Schreibleistung von SQLite WAL auf UNIX-Systemen

Benchmarking

Antwort1

Grundlauf, ohne`gc()`

Ergebnisse mit`gc()`

verwandte Informationen

Benchmarking

Antwort1

Grundlauf, ohnegc()

Ergebnisse mitgc()

verwandte Informationen

Grundlauf, ohne`gc()`

Ergebnisse mit`gc()`