Segmentação personalizada

Each time you upload XML, HTML, MD, or any other source files without a key-value structure, the predefined segmentation rules (SRX 2.0) are used for automatic content segmentation. Although, there might be situations when the default segmentation rules segment source files in contrast to the desired expectations. Nesse caso, você pode definir suas próprias regras de segmentação para cada arquivo de origem individualmente usando o padrão SRX 2.0.

Alterar segmentação

You can change segmentation in the Content > Files.

  1. Open the project where you’d like to adjust the segmentation rules and go to Content > Files.
  2. Click (or right-click) on the needed file and select Settings.
  3. In the appeared dialog, switch to the Parser configuration tab.
  4. Select Use custom segmentation rules.
  5. Paste your SRX segmentation rules and click Save.

After you save your new segmentation rules, your source file will be automatically reimported and segmented according to these new rules.

Exemplos de segmentação

Um arquivo SRX típico é semelhante ao seguinte:

<?xml version="1.0" encoding="UTF-8"?>
<srx version="2.0" 
    xmlns="http://www.lisa.org/srx20"
    xsi:schemaLocation="http://www.lisa.org/srx20 srx20.xsd"
    xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance">
    <header segmentsubflows="yes" cascade="yes">
        <formathandle type="start" include="no"/>
        <formathandle type="end" include="yes"/>
        <formathandle type="isolated" include="yes"/>
    </header>
    <body>
        <languagerules>
            <languagerule languagerulename="Default">
                <!-- Common rules for most languages -->
                <rule break="no">
                    <beforebreak>^\s*[0-9]+\.</beforebreak>
                    <afterbreak>\s</afterbreak>
                </rule>
                <rule break="yes">
                    <afterbreak>\n</afterbreak>
                </rule>
                <rule break="yes">
                    <beforebreak>[\.\?!]+</beforebreak>
                    <afterbreak>\s</afterbreak>
                </rule>
            </languagerule>
        </languagerules>
        <maprules>
            <!-- List exceptions first -->
            <languagemap languagepattern="[Ee][Nn].*" languagerulename="English"/>
            <languagemap languagepattern="[Ff][Rr].*" languagerulename="French"/>
            <!-- Japanese breaking rules -->
            <languagemap languagepattern="[Jj][Aa].*" languagerulename="Japanese"/>
            <!-- Common breaking rules -->
            <languagemap languagepattern=".*" languagerulename="Default"/>
        </maprules>
    </body>
</srx>

Alterar separador de textos para idiomas asiáticos

Geralmente, o ponto final é usado como um separador de frases. Although, for some Asian languages, it’s not the case. For example, the typical sentence separator in Chinese is an ideographic full stop (). For such cases, you may want to use the following ruleset:

<rule break="yes">
    <beforebreak>[\x3002]+</beforebreak>
    <afterbreak></afterbreak>
</rule>

Dividir texto em partes menores

In the following simple sentence, we’ll break down a case when segmenting one text piece into two (or more) strings is necessary.

Texto com regras de segmentação padrão:

Esta é a primeira parte da sentença de amostra e esta é a segunda parte.

Texto com novas regras de segmentação:

Esta é a primeira parte da sentença de amostra
e esta é a segunda parte.

For this particular case, the following ruleset will break the initial sentence into two parts:

<rule break="yes">
    <beforebreak>sentence</beforebreak>
    <afterbreak>\u0020</afterbreak>
</rule>

Criar regras de segmentação com editores SRX

As regras de segmentação SRX podem ser criadas e mantidas com a ajuda de ferramentas como Ratel. Possui uma interface visual onde você pode gerar regras de segmentação a partir do zero ou editar as existentes.

Procurando ajuda

Precisa de ajuda para definir suas regras de segmentação personalizadas ou tiver alguma dúvida? Entre em contato com a equipe de suporte.

Este artigo foi útil?