Minden alkalommal, amikor XML, HTML, MD vagy bármilyen más forrásfájlt kulcsérték-struktúra nélkül feltölt, az előre meghatározott szegmentálási szabályok (SRX 2.0) kerülnek alkalmazásra a tartalom automatikus szegmentálására. Előfordulhatnak azonban olyan helyzetek, amikor az alapértelmezett szegmentálási szabályok nem a kívánt elvárások szerint szegmentálják a forrásfájlokat. Az ilyen esetben az SRX 2.0 szabvány segítségével meghatározhatja az egyes forrásfájlokhoz a saját szegmentálási szabályait.
Segmentation could be changed in the Content > Files.
Miután elmentette az új szegmentálási szabályokat, a forrásfájl automatikusan újra importálásra és szegmentálásra kerül az új szabályok szerint.
Egy tipikus SRX fájl az alábbihoz hasonló:
<?xml version="1.0" encoding="UTF-8"?>
<srx version="2.0"
xmlns="http://www.lisa.org/srx20"
xsi:schemaLocation="http://www.lisa.org/srx20 srx20.xsd"
xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance">
<header segmentsubflows="yes" cascade="yes">
<formathandle type="start" include="no"/>
<formathandle type="end" include="yes"/>
<formathandle type="isolated" include="yes"/>
</header>
<body>
<languagerules>
<languagerule languagerulename="Default">
<!-- Common rules for most languages -->
<rule break="no">
<beforebreak>^\s*[0-9]+\.</beforebreak>
<afterbreak>\s</afterbreak>
</rule>
<rule break="yes">
<afterbreak>\n</afterbreak>
</rule>
<rule break="yes">
<beforebreak>[\.\?!]+</beforebreak>
<afterbreak>\s</afterbreak>
</rule>
</languagerule>
</languagerules>
<maprules>
<!-- List exceptions first -->
<languagemap languagepattern="[Ee][Nn].*" languagerulename="English"/>
<languagemap languagepattern="[Ff][Rr].*" languagerulename="French"/>
<!-- Japanese breaking rules -->
<languagemap languagepattern="[Jj][Aa].*" languagerulename="Japanese"/>
<!-- Common breaking rules -->
<languagemap languagepattern=".*" languagerulename="Default"/>
</maprules>
</body>
</srx>
A mondatok elválasztásaként általában a pontot használják. Bár néhány ázsiai nyelv esetében nem ez a helyzet. Például kínai nyelven a tipikus mondatválasztó az ideográfiai pont (。
). Ilyen esetekben a következő szabálykészletet érdemes használni:
<rule break="yes">
<beforebreak>[\x3002]+</beforebreak>
<afterbreak></afterbreak>
</rule>
Az alábbi egyszerű mondatban bemutatjuk azt az esetet, amikor egy szöveget két (vagy több) karakterláncra kell darabolni.
Szöveg alapértelmezett szegmentálási szabályokkal:
Ez a minta mondat első része és ez a második része.
Szöveg az új szegmentálási szabályokkal:
Ez a minta mondat első része
és ez a második része.
Ebben az esetben a következő szabálykészlet az első mondatot két részre bontja:
<rule break="yes">
<beforebreak>sentence</beforebreak>
<afterbreak>\u0020</afterbreak>
</rule>
Az SRX szegmentációs szabályok olyan eszközök segítségével hozhatók létre, mint a Ratel. Vizuális felülettel rendelkezik, ahol a szegmentálási szabályokat a semmiből is létrehozhatja, vagy a meglévőket szerkesztheti.
Segítségre van szüksége az egyedi szegmentálási szabályok beállításában, vagy kérdése van? Lépjen kapcsolatba az ügyfélszolgálattal.