翻訳メモリ OmegaT の分節化規則指定

しばらく前に挫折して、また今導入を検討している翻訳メモリ "OmegaT" についてのメモを。

OmegaTは、ソースとなるテキストを読み込ませると、一つの文ごとに「分節」として分割し、それを単位として作業を行います。この分節化は割と頭がよくて、普通の文章だときちんと認識してはくれるのですが、ものによっては一部例外を設定する必要があります。

たとえば、文中でページ番号を指定する "p. 123" とかの記述があると、"p"の後のピリオドを文末と認識してしまいます。この例外を指定するのが「分節化規則の指定」です。この機能については詳しい説明がこちらにあります。

で、これに従って、先ほどのページ番号の分節化規則を指定してみます。要は「"p"または"P"の直後にピリオドがついていて、そのあとにスペース１文字と数字が続くときには、そのピリオドで分節切っちゃダメ」という例外規則を指定する訳です。

「分節化前の構図」はピリオドとその直前の部分の規則。つまり" [pP]\."
「分節化後の構図」はピリオド直後の部分の規則。つまり "\s\d"

で、設定画面ではこんな感じに。

この設定をした後にテキストを読み込ませると、"p"直後のピリオドで区切らずに、こんな風に１つの分節として認識されます。

おしまい。

さり海馬