Rendimiento de escritura concurrente de SQLite WAL en sistemas UNIX

Question

Confirmado en Ubuntu 18.04, no lo he probado en Windows.

Simplifiqué su ejemplo y agregué código de instrumentación. El primer gráfico muestra la cantidad de blobs escritos para cada subproceso. En el primer gráfico, las mesetas indican inactividad en todos los núcleos durante aproximadamente 0,2 segundos, y los aumentos pronunciados son escrituras en ráfagas en todos los núcleos. El segundo gráfico muestra los datos sin procesar, más útiles con el gráfico que no funciona en una respuesta de StackOverflow.

Habilitar gc()hace que las ejecuciones sean más largas pero distribuye la carga de manera más uniforme, segundo gráfico a continuación.

No tengo idea de lo que está pasando. ¿Puedes replicar y experimentar más con esta configuración? Agradecería sus comentarios aquí o quizás en el rastreador de problemas de RSQLite.

Ejecución básica, sin`gc()`

make.con <- function() {
  options(digits.secs = 6)

  con <<- DBI::dbConnect(RSQLite::SQLite(), dbname = "db.sqlite")
  DBI::dbExecute(con, "PRAGMA journal_mode = WAL;")
  DBI::dbExecute(con, "PRAGMA busy_timeout = 60000;")
  DBI::dbExecute(con, "PRAGMA synchronous = OFF;")
  DBI::dbExecute(con, "
    CREATE TABLE IF NOT EXISTS tmp (
      id INTEGER NOT NULL,
      blob BLOB NOT NULL,
      PRIMARY KEY (id)
  )")
}
make.con()
#> [1] 0

blob <- serialize(list(rand = runif(1000)), connection = NULL, xdr = FALSE)

fn <- function(x) {
  time0 <- Sys.time()
  rs <- DBI::dbSendQuery(con, "INSERT INTO tmp (blob) VALUES (:blob);")
  time1 <- Sys.time()
  DBI::dbBind(rs, params = list("blob" = list(blob)))
  time2 <- Sys.time()
  DBI::dbClearResult(rs)
  time3 <- Sys.time()
  # gc()
  time4 <- Sys.time()
  list(pid = unix::getpid(), time0 = time0, time1 = time1, time2 = time2, time3 = time3, time4 = time4)
}

n <- 1000L

parallel::setDefaultCluster(parallel::makeCluster(8L))
parallel::clusterExport(varlist = c("make.con", "blob"))
invisible(parallel::clusterEvalQ(expr = {
  make.con()
}))

data <- parallel::parLapply(X = 1:n, fun = fn, chunk.size = 50L)

parallel::stopCluster(cl = parallel::getDefaultCluster())

library(tidyverse)

tbl <-
  data %>%
  transpose() %>%
  map(unlist, recursive = FALSE) %>%
  as_tibble() %>%
  rowid_to_column() %>%
  pivot_longer(-c(rowid, pid), names_to = "step", values_to = "time") %>%
  mutate(time = as.POSIXct(time, origin = "1970-01-01")) %>%
  mutate(pid = factor(pid)) %>%
  arrange(time)

tbl %>%
  group_by(pid) %>%
  mutate(cum = row_number()) %>%
  ungroup() %>%
  ggplot(aes(x = time, y = cum, color = pid)) +
  geom_line()

p <-
  tbl %>%
  ggplot(aes(x = time, y = factor(pid), group = 1)) +
  geom_path() +
  geom_point(aes(color = step))

p

plotly::ggplotly(p)

(la trama no funciona en StackOverflow)

^{Creado el 30-01-2020 por elpaquete reprex(v0.3.0)}

Resultados con`gc()`

Answer 1

Confirmado en Ubuntu 18.04, no lo he probado en Windows.

Simplifiqué su ejemplo y agregué código de instrumentación. El primer gráfico muestra la cantidad de blobs escritos para cada subproceso. En el primer gráfico, las mesetas indican inactividad en todos los núcleos durante aproximadamente 0,2 segundos, y los aumentos pronunciados son escrituras en ráfagas en todos los núcleos. El segundo gráfico muestra los datos sin procesar, más útiles con el gráfico que no funciona en una respuesta de StackOverflow.

Habilitar gc()hace que las ejecuciones sean más largas pero distribuye la carga de manera más uniforme, segundo gráfico a continuación.

No tengo idea de lo que está pasando. ¿Puedes replicar y experimentar más con esta configuración? Agradecería sus comentarios aquí o quizás en el rastreador de problemas de RSQLite.

Ejecución básica, sin`gc()`

make.con <- function() {
  options(digits.secs = 6)

  con <<- DBI::dbConnect(RSQLite::SQLite(), dbname = "db.sqlite")
  DBI::dbExecute(con, "PRAGMA journal_mode = WAL;")
  DBI::dbExecute(con, "PRAGMA busy_timeout = 60000;")
  DBI::dbExecute(con, "PRAGMA synchronous = OFF;")
  DBI::dbExecute(con, "
    CREATE TABLE IF NOT EXISTS tmp (
      id INTEGER NOT NULL,
      blob BLOB NOT NULL,
      PRIMARY KEY (id)
  )")
}
make.con()
#> [1] 0

blob <- serialize(list(rand = runif(1000)), connection = NULL, xdr = FALSE)

fn <- function(x) {
  time0 <- Sys.time()
  rs <- DBI::dbSendQuery(con, "INSERT INTO tmp (blob) VALUES (:blob);")
  time1 <- Sys.time()
  DBI::dbBind(rs, params = list("blob" = list(blob)))
  time2 <- Sys.time()
  DBI::dbClearResult(rs)
  time3 <- Sys.time()
  # gc()
  time4 <- Sys.time()
  list(pid = unix::getpid(), time0 = time0, time1 = time1, time2 = time2, time3 = time3, time4 = time4)
}

n <- 1000L

parallel::setDefaultCluster(parallel::makeCluster(8L))
parallel::clusterExport(varlist = c("make.con", "blob"))
invisible(parallel::clusterEvalQ(expr = {
  make.con()
}))

data <- parallel::parLapply(X = 1:n, fun = fn, chunk.size = 50L)

parallel::stopCluster(cl = parallel::getDefaultCluster())

library(tidyverse)

tbl <-
  data %>%
  transpose() %>%
  map(unlist, recursive = FALSE) %>%
  as_tibble() %>%
  rowid_to_column() %>%
  pivot_longer(-c(rowid, pid), names_to = "step", values_to = "time") %>%
  mutate(time = as.POSIXct(time, origin = "1970-01-01")) %>%
  mutate(pid = factor(pid)) %>%
  arrange(time)

tbl %>%
  group_by(pid) %>%
  mutate(cum = row_number()) %>%
  ungroup() %>%
  ggplot(aes(x = time, y = cum, color = pid)) +
  geom_line()

p <-
  tbl %>%
  ggplot(aes(x = time, y = factor(pid), group = 1)) +
  geom_path() +
  geom_point(aes(color = step))

p

plotly::ggplotly(p)

(la trama no funciona en StackOverflow)

^{Creado el 30-01-2020 por elpaquete reprex(v0.3.0)}

Rendimiento de escritura concurrente de SQLite WAL en sistemas UNIX

Evaluación comparativa

Respuesta1

Ejecución básica, sin`gc()`

Resultados con`gc()`

información relacionada

Evaluación comparativa

Respuesta1

Ejecución básica, singc()

Resultados congc()

información relacionada

Ejecución básica, sin`gc()`

Resultados con`gc()`