Uuseg

Uuseg est une bibliothèque OCaml pour segmenter le texte Unicode. Elle réalise les algorithmes Unicode de segmentation du texte pour détecter les groupes de graphèmes, les mots et les phrases ainsi que l'algorithme Unicode de césure du texte pour détecter les opportunités de césure.

La bibliothèque est indépendante de tout mécanisme d'entrée/sortie et de toute structure de donnée pour le texte Unicode. Le texte peut être traité sans avoir une représentation complète en mémoire.

Uuseg est distribuée sous la licence ISC. Elle dépend de Uucp.