String longa em sânscrito não é hifenizada

String longa em sânscrito não é hifenizada

Estou tentando fazer a hifenização do sânscrito transliterado fornecida pela poliglossia. Um problema reconhecidamente estranho que encontro é que uma string (quatro palavras compostas, na verdade, coladas por sandhi) abrangendo mais de uma linha não é hifenizada:

\documentclass[12pt]{article}

\usepackage{fontspec}
\usepackage{polyglossia}

\setdefaultlanguage{sanskrit}
\newfontfamily\sanskritfont{TeX Gyre Pagella}

\setotherlanguage{english} 
\newfontfamily\englishfont{TeX Gyre Pagella}

\begin{document}

asmadādiviśeṣaṇaśūnyasyārthasākṣātkāritvamātrasyaivendriyādhīnatvadarśanād anaikāntikatvam asambhavīti cet | yady evam arthasākṣātkāritvamātrasyendiryavadālokādhīnatvam upalabdham iti na santamase paśyeyur ulūkādayaḥ | atha vyabhicāradarśanād ālokasyāvyāpakatvam, vyabhicāraśaṅkayā tarhīndriyasyāpy avyāpakatvam | vyāptyā śaṅkā khaṇḍyata iti cet | śaṅkāsambhavād vyāptir evāsambhavinī yadi prathamata eva vyāptiḥ, vyabhicāro 'pi na dṛśyeta | 


\end{document}

saída de amostra

É claro que eu poderia usar hífens discricionários aqui, mas prefiro confiar no látex (xelatex) para cuidar da hifenização. Por que não funciona aqui?

Responder1

Você está tendo muito azar: se eu adicionar \tracingparagraphs=1no documento, o arquivo de log mostra as tentativas feitas pelo XeTeX de quebra de linha; Coloquei também \hspace*{0pt}no início, para que seja possível hifenizar a primeira palavra.

@firstpass
@secondpass
[]| \EU1/TeXGyrePagella(0)/m/n/10 a-sma-dā-di-vi-śe-ṣa-ṇa-śū-nya-syā-rtha-sā-kṣ
ā-tkā-ri-tva-mā-tra-syai-ve-ndri-yā-dhīnatvadarśanād 
@ via @@0 b=* p=0 d=*
@@1: line 1.3 t=0 -> @@0
a-nai-kā-nti-ka-tvam a-sa-mbha-vīti cet | yady e-vam a-rtha-sā-kṣā-tkā-ri-tva-m
ā-tra-sye-ndi-
@\discretionary via @@1 b=16 p=50 d=3176
@@2: line 2.3- t=3176 -> @@1
rya-va-dā-lo-kā-dhī-na-tvam u-pa-la-bdham iti na sa-nta-mase pa-śye-yur u-lū-kā
-da-yaḥ | 
@ via @@2 b=3 p=0 d=169
@@3: line 3.2 t=3345 -> @@2
a-tha vya-bhi-cā-ra-da-rśa-nād ā-lo-ka-syā-vyā-pa-ka-tvam, vya-bhi-cā-ra-śa-ṅka
yā ta-rhī-ndri-
@\discretionary via @@3 b=13 p=50 d=3029
@@4: line 4.3- t=6374 -> @@3
ya-syāpy a-vyā-pa-ka-tvam | vyā-ptyā śa-ṅkā kha-ṇḍyata iti cet | śa-ṅkā-sa-mbha
-vād 
@ via @@4 b=3 p=0 d=169
@@5: line 5.2 t=6543 -> @@4
vyā-ptir e-vā-sa-mbha-vinī yadi pra-tha-mata eva vyā-ptiḥ, vya-bhi-cāro 'pi na 
dṛśyeta 
@ via @@5 b=1 p=0 d=121
@@6: line 6.2 t=6664 -> @@5
| 
@\par via @@6 b=0 p=-10000 d=*
@@7: line 7.2- t=6664 -> @@6

O que pode ser visto é que nenhum ponto de hifenização viável é encontrado na parte final da palavra longa

...-yā-dhīnatvadarśanād

e hifenizar depois daria uma linha muito curta.

Isso tem a ver com a incapacidade do (Xe)TeX de hifenizar corretamente palavras com mais de 63 caracteres, veja parte 42 “Hifenização” em “TeX, o programa” ( texdoc tex, p. 344ss).

Receio que você tenha que adicionar discricionários, ou alguns \penalty0 \hspace{0pt}nos pontos apropriados, para que a hifenização automática ainda seja possível nas palavras compostas.

Por exemplo, inserir \-conforme mostrado abaixo permite a hifenização, mas a linha ainda está cheia demais; hifenizar entre tvae datambém não seria bom.

\documentclass{article}
\usepackage{fontspec}
\usepackage{polyglossia}
\setdefaultlanguage{sanskrit}
\newfontfamily\sanskritfont{TeX Gyre Pagella}

\begin{document}

asmadādiviśeṣaṇaśūnyasyārthasākṣātkāritvamātrasyaivendriyādhīnatvada\-rśanād
anaikāntikatvam asambhavīti cet | yady evam
arthasākṣātkāritvamātrasyendiryavadālokādhīnatvam upalabdham iti na santamase
paśyeyur ulūkādayaḥ | atha vyabhicāradarśanād ālokasyāvyāpakatvam,
vyabhicāraśaṅkayā tarhīndriyasyāpy avyāpakatvam | vyāptyā śaṅkā khaṇḍyata iti
cet | śaṅkāsambhavād vyāptir evāsambhavinī yadi prathamata eva vyāptiḥ,
vyabhicāro 'pi na dṛśyeta |

\end{document}

insira a descrição da imagem aqui

informação relacionada