
Estou tentando fazer a hifenização do sânscrito transliterado fornecida pela poliglossia. Um problema reconhecidamente estranho que encontro é que uma string (quatro palavras compostas, na verdade, coladas por sandhi) abrangendo mais de uma linha não é hifenizada:
\documentclass[12pt]{article}
\usepackage{fontspec}
\usepackage{polyglossia}
\setdefaultlanguage{sanskrit}
\newfontfamily\sanskritfont{TeX Gyre Pagella}
\setotherlanguage{english}
\newfontfamily\englishfont{TeX Gyre Pagella}
\begin{document}
asmadādiviśeṣaṇaśūnyasyārthasākṣātkāritvamātrasyaivendriyādhīnatvadarśanād anaikāntikatvam asambhavīti cet | yady evam arthasākṣātkāritvamātrasyendiryavadālokādhīnatvam upalabdham iti na santamase paśyeyur ulūkādayaḥ | atha vyabhicāradarśanād ālokasyāvyāpakatvam, vyabhicāraśaṅkayā tarhīndriyasyāpy avyāpakatvam | vyāptyā śaṅkā khaṇḍyata iti cet | śaṅkāsambhavād vyāptir evāsambhavinī yadi prathamata eva vyāptiḥ, vyabhicāro 'pi na dṛśyeta |
\end{document}
É claro que eu poderia usar hífens discricionários aqui, mas prefiro confiar no látex (xelatex) para cuidar da hifenização. Por que não funciona aqui?
Responder1
Você está tendo muito azar: se eu adicionar \tracingparagraphs=1
no documento, o arquivo de log mostra as tentativas feitas pelo XeTeX de quebra de linha; Coloquei também \hspace*{0pt}
no início, para que seja possível hifenizar a primeira palavra.
@firstpass
@secondpass
[]| \EU1/TeXGyrePagella(0)/m/n/10 a-sma-dā-di-vi-śe-ṣa-ṇa-śū-nya-syā-rtha-sā-kṣ
ā-tkā-ri-tva-mā-tra-syai-ve-ndri-yā-dhīnatvadarśanād
@ via @@0 b=* p=0 d=*
@@1: line 1.3 t=0 -> @@0
a-nai-kā-nti-ka-tvam a-sa-mbha-vīti cet | yady e-vam a-rtha-sā-kṣā-tkā-ri-tva-m
ā-tra-sye-ndi-
@\discretionary via @@1 b=16 p=50 d=3176
@@2: line 2.3- t=3176 -> @@1
rya-va-dā-lo-kā-dhī-na-tvam u-pa-la-bdham iti na sa-nta-mase pa-śye-yur u-lū-kā
-da-yaḥ |
@ via @@2 b=3 p=0 d=169
@@3: line 3.2 t=3345 -> @@2
a-tha vya-bhi-cā-ra-da-rśa-nād ā-lo-ka-syā-vyā-pa-ka-tvam, vya-bhi-cā-ra-śa-ṅka
yā ta-rhī-ndri-
@\discretionary via @@3 b=13 p=50 d=3029
@@4: line 4.3- t=6374 -> @@3
ya-syāpy a-vyā-pa-ka-tvam | vyā-ptyā śa-ṅkā kha-ṇḍyata iti cet | śa-ṅkā-sa-mbha
-vād
@ via @@4 b=3 p=0 d=169
@@5: line 5.2 t=6543 -> @@4
vyā-ptir e-vā-sa-mbha-vinī yadi pra-tha-mata eva vyā-ptiḥ, vya-bhi-cāro 'pi na
dṛśyeta
@ via @@5 b=1 p=0 d=121
@@6: line 6.2 t=6664 -> @@5
|
@\par via @@6 b=0 p=-10000 d=*
@@7: line 7.2- t=6664 -> @@6
O que pode ser visto é que nenhum ponto de hifenização viável é encontrado na parte final da palavra longa
...-yā-dhīnatvadarśanād
e hifenizar depois yā
daria uma linha muito curta.
Isso tem a ver com a incapacidade do (Xe)TeX de hifenizar corretamente palavras com mais de 63 caracteres, veja parte 42 “Hifenização” em “TeX, o programa” ( texdoc tex
, p. 344ss).
Receio que você tenha que adicionar discricionários, ou alguns \penalty0 \hspace{0pt}
nos pontos apropriados, para que a hifenização automática ainda seja possível nas palavras compostas.
Por exemplo, inserir \-
conforme mostrado abaixo permite a hifenização, mas a linha ainda está cheia demais; hifenizar entre tva
e da
também não seria bom.
\documentclass{article}
\usepackage{fontspec}
\usepackage{polyglossia}
\setdefaultlanguage{sanskrit}
\newfontfamily\sanskritfont{TeX Gyre Pagella}
\begin{document}
asmadādiviśeṣaṇaśūnyasyārthasākṣātkāritvamātrasyaivendriyādhīnatvada\-rśanād
anaikāntikatvam asambhavīti cet | yady evam
arthasākṣātkāritvamātrasyendiryavadālokādhīnatvam upalabdham iti na santamase
paśyeyur ulūkādayaḥ | atha vyabhicāradarśanād ālokasyāvyāpakatvam,
vyabhicāraśaṅkayā tarhīndriyasyāpy avyāpakatvam | vyāptyā śaṅkā khaṇḍyata iti
cet | śaṅkāsambhavād vyāptir evāsambhavinī yadi prathamata eva vyāptiḥ,
vyabhicāro 'pi na dṛśyeta |
\end{document}