Ogni volta che carichi file XML, HTML, MD o altri file sorgente senza una struttura del valore chiave, le regole di segmentazione pre-definite (SRX 2.0) sono usate per la segmentazione del contenuto automatico. Tuttavia, potrebbero generarsi situazioni quando le regole di segmentazione di predefinite segmentano i file sorgente in contrasto alle aspettative desiderate. In questo caso, puoi definire le tue regole di segmentazione per ogni file sorgente individualmente, usando lo standard SRX 2.0.
La segmentazione sarebbe modificabile nella sezione Contenuti > scheda File.
Dopo aver salvato le tue nuove regole di segmentazione, il tuo file sorgente sarà automaticamente re-importato e segmentato in base a queste nuove regole.
Un file SRX tipico somiglia al seguente:
<?xml version="1.0" encoding="UTF-8"?>
<srx version="2.0"
xmlns="http://www.lisa.org/srx20"
xsi:schemaLocation="http://www.lisa.org/srx20 srx20.xsd"
xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance">
<header segmentsubflows="yes" cascade="yes">
<formathandle type="start" include="no"/>
<formathandle type="end" include="yes"/>
<formathandle type="isolated" include="yes"/>
</header>
<body>
<languagerules>
<languagerule languagerulename="Default">
<!-- Common rules for most languages -->
<rule break="no">
<beforebreak>^\s*[0-9]+\.</beforebreak>
<afterbreak>\s</afterbreak>
</rule>
<rule break="yes">
<afterbreak>\n</afterbreak>
</rule>
<rule break="yes">
<beforebreak>[\.\?!]+</beforebreak>
<afterbreak>\s</afterbreak>
</rule>
</languagerule>
</languagerules>
<maprules>
<!-- List exceptions first -->
<languagemap languagepattern="[Ee][Nn].*" languagerulename="English"/>
<languagemap languagepattern="[Ff][Rr].*" languagerulename="French"/>
<!-- Japanese breaking rules -->
<languagemap languagepattern="[Jj][Aa].*" languagerulename="Japanese"/>
<!-- Common breaking rules -->
<languagemap languagepattern=".*" languagerulename="Default"/>
</maprules>
</body>
</srx>
Solitamente, l’interruzione completa è usata come separatore della frase. Tuttavia, per alcune lingue asiatiche, non è il caso. Ad esempio, in cinese, il separatore della frase tipico è un’interruzione completa ideografica (。
). In questi casi, potresti voler usare la seguente serie di regole:
<rule break="yes">
<beforebreak>[\x3002]+</beforebreak>
<afterbreak></afterbreak>
</rule>
Nella seguente frase completa spezzeremo un caso quando è necessario segmentare un pezzo di testo in due (o più) stringhe.
Testo con regole di segmentazione predefinite:
Questa è la prima parte dell'esempio di frase e questa è la seconda parte.
Testo con le nuove regole di segmentazione:
Questa è la prima frase della frase d'esempio
e questa è la seconda parte.
Per questo caso particolare, la seguente serie di regole spezzerà la frase iniziale in due parti:
<rule break="yes">
<beforebreak>frase</beforebreak>
<afterbreak>\u0020</afterbreak>
</rule>
Le regole di segmentazione SRX possono esser create e mantenute con l’aiuto di strumenti come Ratel. Ha un’interfaccia visiva dove puoi generare le regole di segmentazione da zero o modificare quelle esistenti.
Serve aiuto per configurare le tue regole di segmentazione personalizzate o hai qualche domanda? Contatta il Team di Supporto.