Uuseg

Uuseg est une bibliothèque OCaml pour segmenter le texte Unicode. Elle réalise les algorithmes Unicode de segmentation du texte pour détecter les groupes de graphèmes, les mots et les phrases ainsi que l'algorithme Unicode de césure du texte pour détecter les opportunités de césure.

La bibliothèque est indépendante de tout mécanisme d'entrée/sortie et de toute structure de donnée pour le texte Unicode. Le texte peut être traité sans avoir une représentation complète en mémoire.

Uuseg dépend de Uucp et optionellement de Uutf pour prendre en charge des chaînes OCaml encodée en UTF-X. La bibliothèque est distribuée sous la licence BSD3 .