texlive 2016 および forest 2.0 への移行後のメモリの問題

Question

これは確かにフォレストの問題でしたが、驚くべきことに、パッケージの最初のバージョンから存在していました。Stefan は、単にこのような長いツリーフルドキュメントを最初に作成した人物であり、v1 から v2 への切り替えによって、問題がさらに悪化しただけでした。

何が悪かったのかを説明する前に、修正バージョン (v2.1.4) を CTAN に投稿しました。

問題は、まさに Ulrike Fischer が上記のコメントで言及していたことです。Forest のパッキングアルゴリズムは、座標 (および座標のペア) に関する情報を (一時的に) 保存する必要があります。さらに、座標 (または座標のペア) が与えられたら、その情報を高速に取得する必要があります。明らかな解決策は、座標を検索キーとして、情報を辞書 (連想配列) に保存することです。そのため、TeX の制御シーケンスを使用するのが完璧なアイデアに思えたので、私は素朴にそれを実行しました (基本的に、概念実証用の Python 実装からコピーアンドペーストしました)。

\csdef{forest@(\the\pgf@x,\the\pgf@y)}{...}

そしてさらに

\csdef{forest@(\the\pgf@xa,\the\pgf@ya)--(\the\pgf@xb,\the\pgf@yb)}{...}

定義はローカルであるにもかかわらず、エントリはTeXのハッシュテーブルに永久に残ることに気付いていない。このアプローチは、簡単に数キロバイトの文字列プールスペースを消費した。木あたり！

v2.1.4 では、問題のある辞書を再実装し、すべての情報を単一の toks レジスタに格納します。その内容は次のようになります (上記の問題の最初のものについてのみ表示)。

...(x1,y1){...}(x2,y2){...}...

このような構造では、特定の座標を簡単に検索できます (ただし、\csnameアプローチよりも遅くなります)。

\def\forest@breakpath@getfromtoks#1#2#3#4{%
  % #1=cache toks register, #2=receiving cs, (#3,#4)=point;
  % we rely on the fact that the point we're looking up should always be present
  \def\forest@breakpath@getfromtoks@##1(#3,#4)##2##3\forest@END{##2}%
  \edef#2{\expandafter\forest@breakpath@getfromtoks@\the#1\forest@END}%

(多くのパッケージがこのようなシステムを使用しています。たとえば、PGF を参照してください\pgfutil@in@。)

新しいシステムは 10% ほど遅くなりますが、Stefan の 800 ページを超える本では、バージョン v2.1.3 が 600 万文字の文字列プール制限を超えましたが、バージョン 2.1.4 (および他の多くのロードされたパッケージ) ではわずか 200 万文字しか使用しません。パッキングアルゴリズムによるメモリ消費に関しては、ドキュメントの長さはもはや問題ではありません。

Stefan、これを見つけて、この 1 週間我慢してくれてありがとう! (ヒント: 数年経ってパッキングアルゴリズムを改めて見てみると、もっと高速化できると思います!)

Answer 1