Tilpasset segmentering

Hver gang XML-, HTML-, MD-kildefiler mv. uden en nøgleværdistruktur uploades, anvendes de prædefinerede segmenteringsregler (SRX 2.0) til automatisk indholdssegmentering. Der kan dog være situationer, hvor standardsegmenteringsreglerne ikke segmenterer kildefiler i overensstemmelse med forventningerne. I så tilfælde kan egne segmenteringsregler defineres for hver kildefil individuelt vha. SRX 2.0-standarden.

Ændr segmentering

Segmentering kan ændres via Indhold > Filer.

  1. Åbn projektet, for hvilket segmenteringsreglerne skal justeres, og gå til Indhold > Filer.
  2. Klik på eller (eller højreklik på) den ønskede fil og vælg punktet Ændr segmentering.
  3. I den viste dialog indsættes SRX segmenteringsreglerne, og der klikkes på Gem.

Når de nye segmenteringsregler er gemt, genimporteres og segmenteres kildefilen automatisk iht. disse nye regler.

Segmenteringseks.

En typisk SRX-fil vil ligne flg. eks.:

<?xml version="1.0" encoding="UTF-8"?>
<srx version="2.0" 
    xmlns="http://www.lisa.org/srx20"
    xsi:schemaLocation="http://www.lisa.org/srx20 srx20.xsd"
    xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance">
    <header segmentsubflows="yes" cascade="yes">
        <formathandle type="start" include="no"/>
        <formathandle type="end" include="yes"/>
        <formathandle type="isolated" include="yes"/>
    </header>
    <body>
        <languagerules>
            <languagerule languagerulename="Default">
                <!-- Common rules for most languages -->
                <rule break="no">
                    <beforebreak>^\s*[0-9]+\.</beforebreak>
                    <afterbreak>\s</afterbreak>
                </rule>
                <rule break="yes">
                    <afterbreak>\n</afterbreak>
                </rule>
                <rule break="yes">
                    <beforebreak>[\.\?!]+</beforebreak>
                    <afterbreak>\s</afterbreak>
                </rule>
            </languagerule>
        </languagerules>
        <maprules>
            <!-- List exceptions first -->
            <languagemap languagepattern="[Ee][Nn].*" languagerulename="English"/>
            <languagemap languagepattern="[Ff][Rr].*" languagerulename="French"/>
            <!-- Japanese breaking rules -->
            <languagemap languagepattern="[Jj][Aa].*" languagerulename="Japanese"/>
            <!-- Common breaking rules -->
            <languagemap languagepattern=".*" languagerulename="Default"/>
        </maprules>
    </body>
</srx>

Ændre sætningsseparator til asiatiske sprog

Normalt bruges punktum som sætningsseparator. Det er dog ikke tilfældet for alle asiatiske sprog. På f.eks. kinesisk er den typiske sætningsseparator et ideografisk punktum (). I sådanne tilfælde kan flg. bruge regelsæt bruges:

<rule break="yes">
    <beforebreak>[\x3002]+</beforebreak>
    <afterbreak></afterbreak>
</rule>

Bryd tekst op i kortere dele

I flg. enkle sætning vises et tilfælde, hvor det er nødvendigt at segmentere et tekststykke til to (eller flere) strenge.

Tekst med standardsegmenteringsregler:

Dette er den første del af eksempelsætningen, og det er den anden del.

Tekst med nye segmenteringsregler:

Dette er den første del af eksempelsætningen,
og dette er den anden del.

I dette tilfælde vil flg. regelsæt opdele den indledende sætning i to:

<rule break="yes">
    <beforebreak>sætning</beforebreak>
    <afterbreak>\u0020</afterbreak>
</rule>

Opret segmenteringsregler med SRX Editors

SRX-segmenteringsreglerne kan oprettes og vedligeholdes vha. værktøjer såsom Ratel. Det har en visuel grænseflade, hvor segmenteringsregler kan generere fra bunden eller eksisterende kan redigeres.

Søge assistance

Behov for hjælp til at indstille de tilpassede segmenteringsregler, eller evt. spørgsmål? Kontakt Supportteamet.

Var denne artikel nyttig?