View
102
Download
2
Category
Preview:
Citation preview
Татьяна Елипашева
12МАГКЛ
*
*
Numbers Tagger Поиск чисел в
документах
(цифровая и
словесная
формулировки) и их
аннотация в виде
числовых значений
gate.creole.numbe
rs.NumbersTagger
Roman Numerals
Tagger
Поиск и аннотация
римских чисел
gate.creole.numbe
rs.RomanNumeralsT
agger
**Содержит ресурсы, разработанные для аннотирования
чисел, появляющихся в документах.
*Определяет точное числовое значение
*Добавляет значение к аннотации
*Позволяет строить более сложные аннотации на базе
тех, что были обработаны данным плагином (денежные
единицы, измерения)
*Конфигурация описывается в XML файле
*Готовая конфигурация для аннотирования для
английского, французского, немецкого и испанского
языков
*Все ресурсы в данном плагине производят так
называемые Number annotations (числовые аннотации) в
следующем виде:
*Type(тип): описывается типы токенов, которые могут
образовывать число
*Value(значение): обозначает собой реальное значение
числа , которое было аннотировано
*
String Value
3^2 9
101 101
3,000 3000
3.3e3 3300
1/4 0.25
9^1/2 3
4x10^3 4000
5.5*4^5 5632
thirty one 31
three hundred 300
four thousand one hundred and two 4102
3 million 3000000
fünfundzwanzig 25
4 score 80
*
*configURL- путь к конфигурационному файлу.
Значение по умолчанию: resources/languages/all.xml
Конфигурационный файл для английского языка:
resources/languages/english.xml
*Encoding – кодировка. По умолчанию UTF-8
*postProcessURL – путь для JAPE грамматики
*
*
* <config> <description>Basic Example</description> <imports>
<url encoding="UTF-8">symbols.xml</url> </imports> <words>
<word value="0">zero</word> <word value="1">one</word> ...
<word value="10">ten</word> </words> <multipliers>
<word value="2">hundred</word> <word value="2">hundreds</word> <word value="3">thousand</word> <word value="3">thousands</word> <word value
</multipliers> <conjunctions>
<word whole="true">and</word> </conjunctions> <decimalSymbol>.</decimalSymbol> <digitGroupingSymbol>,</digitGroupingSymbol>
</config>
*
*e: обозначает экспоненциальное основание 10
<word value="2">hundred</word>
3 hundred => 3 × 102 или 300
* /: позволяет определять доли или дроби
three halves => 1.5
*^: возведение в степень числа
three squared => 9
*
…
<conjunctions>
<word whole="true">and</word>
</conjunctions>
<decimalSymbol>.</decimalSymbol>
<digitGroupingSymbol>,</digitGroupingSymbol>
*
*
*allowWithinWords
*annotationSetName
*failOnMissingInputAnnotations
*useHintsFromOriginalMarkups
*
*allowLowerCase – позволяет выполнять
аннотацию для римских цифр нижнего
регистра
*maxTailLength – ограничение количества
символов
*outputASName – имя для множества аннотаций
Recommended