Egyedi szegmentálás

Minden alkalommal, amikor XML, HTML, MD vagy bármilyen más forrásfájlt kulcsérték-struktúra nélkül feltölt, az előre meghatározott szegmentálási szabályok (SRX 2.0) kerülnek alkalmazásra a tartalom automatikus szegmentálására. Előfordulhatnak azonban olyan helyzetek, amikor az alapértelmezett szegmentálási szabályok nem a kívánt elvárások szerint szegmentálják a forrásfájlokat. Az ilyen esetben az SRX 2.0 szabvány segítségével meghatározhatja az egyes forrásfájlokhoz a saját szegmentálási szabályait.

Szegmentálás módosítása

A szegmentálás megváltoztatható a Projekt beállítások > Fájlok lapon.

  1. Nyissa meg a projektet, ahol módosítani szeretné a szegmentálási szabályokat, és váltson a Projekt beállítások > Fájlok lapra.
  2. Kattintson az ikonra (vagy jobb egérgomb) a szükséges fájlnál és válassza a Szegmentálás módosítása lehetőséget.
  3. A megjelenő párbeszédpanelen illessze be az SRX szegmentációs szabályokat, majd kattintson a Mentés gombra.

Miután elmentette az új szegmentálási szabályokat, a forrásfájl automatikusan újra importálásra és szegmentálásra kerül az új szabályok szerint.

Szegmentálási példák

Egy tipikus SRX fájl az alábbihoz hasonló:

<?xml version="1.0" encoding="UTF-8"?>
<srx version="2.0" 
    xmlns="http://www.lisa.org/srx20"
    xsi:schemaLocation="http://www.lisa.org/srx20 srx20.xsd"
    xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance">
    <header segmentsubflows="yes" cascade="yes">
        <formathandle type="start" include="no"/>
        <formathandle type="end" include="yes"/>
        <formathandle type="isolated" include="yes"/>
    </header>
    <body>
        <languagerules>
            <languagerule languagerulename="Default">
                <!-- Common rules for most languages -->
                <rule break="no">
                    <beforebreak>^\s*[0-9]+\.</beforebreak>
                    <afterbreak>\s</afterbreak>
                </rule>
                <rule break="yes">
                    <afterbreak>\n</afterbreak>
                </rule>
                <rule break="yes">
                    <beforebreak>[\.\?!]+</beforebreak>
                    <afterbreak>\s</afterbreak>
                </rule>
            </languagerule>
        </languagerules>
        <maprules>
            <!-- List exceptions first -->
            <languagemap languagepattern="[Ee][Nn].*" languagerulename="English"/>
            <languagemap languagepattern="[Ff][Rr].*" languagerulename="French"/>
            <!-- Japanese breaking rules -->
            <languagemap languagepattern="[Jj][Aa].*" languagerulename="Japanese"/>
            <!-- Common breaking rules -->
            <languagemap languagepattern=".*" languagerulename="Default"/>
        </maprules>
    </body>
</srx>

Mondatelválasztó módosítása az ázsiai nyelvekhez

A mondatok elválasztásaként általában a pontot használják. Bár néhány ázsiai nyelv esetében nem ez a helyzet. Például kínai nyelven a tipikus mondatválasztó az ideográfiai pont (). Ilyen esetekben a következő szabálykészletet érdemes használni:

<rule break="yes">
    <beforebreak>[\x3002]+</beforebreak>
    <afterbreak></afterbreak>
</rule>

Szöveg tördelése kisebb részekre

Az alábbi egyszerű mondatban bemutatjuk azt az esetet, amikor egy szöveget két (vagy több) karakterláncra kell darabolni.

Szöveg alapértelmezett szegmentálási szabályokkal:

Ez a minta mondat első része és ez a második része.

Szöveg az új szegmentálási szabályokkal:

Ez a minta mondat első része
és ez a második része.

Ebben az esetben a következő szabálykészlet az első mondatot két részre bontja:

<rule break="yes">
    <beforebreak>sentence</beforebreak>
    <afterbreak>\u0020</afterbreak>
</rule>

Szegmentációs szabályok létrehozása SRX szerkesztőkkel

Az SRX szegmentációs szabályok olyan eszközök segítségével hozhatók létre, mint a Ratel. Vizuális felülettel rendelkezik, ahol a szegmentálási szabályokat a semmiből is létrehozhatja, vagy a meglévőket szerkesztheti.

Segítség kérése

Segítségre van szüksége az egyedi szegmentálási szabályok beállításában, vagy kérdése van? Lépjen kapcsolatba az ügyfélszolgálattal.

Hasznos volt ez a cikk?