Segmentação personalizada

Sempre que você carrega XML, HTML, MD ou qualquer outro arquivo de origem sem uma estrutura de valor-chave, as regras de segmentação predefinidas (SRX 2.0) são usadas para a segmentação automática de conteúdo. No entanto, pode haver situações em que a segmentação padrão governa os arquivos de origem do segmento em contraste com as expectativas desejadas. Nesse caso, você pode definir suas próprias regras de segmentação para cada arquivo de origem individualmente usando o padrão SRX 2.0.

Alterar segmentação

A segmentação pode ser alterada na aba Configurações do projeto > * Arquivos*.
  1. Abra o projeto em que você deseja ajustar as regras de segmentação e alterne para a aba configurações do projeto > arquivos.
  2. Clique (ou clique com o botão direito do mouse) no arquivo necessário e selecione a opção alterar segmentação.
  3. Na caixa de diálogo exibida, cole suas regras de segmentação SRX e clique em salvar.

Depois de salvar suas novas regras de segmentação, seu arquivo de origem será automaticamente reimportado e segmentado de acordo com essas novas regras.

Exemplos de segmentação

Um arquivo SRX típico é semelhante ao seguinte:

<?xml version="1.0" encoding="UTF-8"?>
<srx version="2.0" 
    xmlns="http://www.lisa.org/srx20"
    xsi:schemaLocation="http://www.lisa.org/srx20 srx20.xsd"
    xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance">
    <header segmentsubflows="yes" cascade="yes">
        <formathandle type="start" include="no"/>
        <formathandle type="end" include="yes"/>
        <formathandle type="isolated" include="yes"/>
    </header>
    <body>
        <languagerules>
            <languagerule languagerulename="Default">
                <!-- Common rules for most languages -->
                <rule break="no">
                    <beforebreak>^\s*[0-9]+\.</beforebreak>
                    <afterbreak>\s</afterbreak>
                </rule>
                <rule break="yes">
                    <afterbreak>\n</afterbreak>
                </rule>
                <rule break="yes">
                    <beforebreak>[\.\?!]+</beforebreak>
                    <afterbreak>\s</afterbreak>
                </rule>
            </languagerule>
        </languagerules>
        <maprules>
            <!-- List exceptions first -->
            <languagemap languagepattern="[Ee][Nn].*" languagerulename="English"/>
            <languagemap languagepattern="[Ff][Rr].*" languagerulename="French"/>
            <!-- Japanese breaking rules -->
            <languagemap languagepattern="[Jj][Aa].*" languagerulename="Japanese"/>
            <!-- Common breaking rules -->
            <languagemap languagepattern=".*" languagerulename="Default"/>
        </maprules>
    </body>
</srx>

Alterar separador de textos para idiomas asiáticos

Geralmente, o ponto final é usado como um separador de frases. Embora, para alguns idiomas asiáticos, não seja o caso. Por exemplo, em chinês, o separador típico de frases é um ponto final ideográfico (). Para esses casos, convém usar o seguinte conjunto de regras:

<rule break="yes">
    <beforebreak>[\x3002]+</beforebreak>
    <afterbreak></afterbreak>
</rule>

Dividir texto em partes menores

Na seguinte texto simples, detalharemos um caso quando for necessário segmentar uma parte do texto em dois (ou mais) textos.

Texto com regras de segmentação padrão:

Esta é a primeira parte da sentença de amostra e esta é a segunda parte.

Texto com novas regras de segmentação:

Esta é a primeira parte da sentença de amostra
e esta é a segunda parte.

Nesse caso específico, o seguinte conjunto de regras interromperá a sentença inicial em duas partes:

<rule break="yes">
    <beforebreak>sentence</beforebreak>
    <afterbreak>\u0020</afterbreak>
</rule>

Criar regras de segmentação com editores SRX

As regras de segmentação SRX podem ser criadas e mantidas com a ajuda de ferramentas como Ratel. Possui uma interface visual onde você pode gerar regras de segmentação a partir do zero ou editar as existentes.

Procurando ajuda

Precisa de ajuda para definir suas regras de segmentação personalizadas ou tiver alguma dúvida? Entre em contato com a equipe de suporte.

Este artigo foi útil?