72장. tokenize
tokenizer 언어는 camel-core
에서 내장 언어이며, 토큰 기반 전략을 사용하여 메시지를 분할하는 Split EIP와 가장 자주 사용됩니다.
tokenizer 언어는 지정된 구분 기호 패턴을 사용하여 텍스트 문서를 토큰화하기 위한 것입니다. 또한 일부 제한된 기능으로 XML 문서를 토큰화하는 데 사용할 수도 있습니다. XML 토큰화의 진정한 XML 인식을 위해 XML 토큰화 언어를 사용하는 것이 좋습니다. XML 문서에 특히 더 빠르고 효율적인 토큰화를 제공합니다.
72.1. 토큰화 옵션
Tokenize 언어는 아래 나열된 11 가지 옵션을 지원합니다.
이름 | 기본값 | Java Type | 설명 |
---|---|---|---|
토큰 |
| 필요한 경우 tokenizer로 사용할 (시작) 토큰 (예: 새 줄 토큰을 사용할 수 있습니다. 동적 토큰을 지원하기 위해 간단한 언어를 토큰으로 사용할 수 있습니다. | |
endToken |
| 시작/엔드 토큰 쌍을 사용하는 경우 tokenizer로 사용할 최종 토큰입니다. 동적 토큰을 지원하기 위해 간단한 언어를 토큰으로 사용할 수 있습니다. | |
inheritNamespaceTagName |
| XML을 사용할 때 root/parent 태그 이름에서 네임스페이스를 상속하려면 태그 이름으로 간단한 언어를 사용하여 동적 이름을 지원할 수 있습니다. | |
headerName |
| 메시지 본문을 사용하는 대신 토큰화하는 헤더의 이름입니다. | |
regex |
| 토큰이 정규 표현식 패턴인 경우. 기본값은 false입니다. | |
xml |
| 입력이 XML 메시지인지 여부입니다. XML 페이로드를 사용하는 경우 이 옵션을 true로 설정해야 합니다. | |
includeTokens |
| 쌍을 사용할 때 부분에 토큰을 포함할지 여부입니다. 기본값은 false입니다. | |
group |
| 예를 들어, N 부분을 그룹화하려면 큰 파일을 1000 줄의 청크로 분할합니다. 동적 그룹 크기를 지원하기 위해 간단한 언어를 그룹으로 사용할 수 있습니다. | |
groupDelimiter |
| 그룹화할 때 사용할 구분 기호를 설정합니다. 이를 설정하지 않으면 토큰이 구분자로 사용됩니다. | |
skipFirst |
| 첫 번째 요소를 건너뜁니다. | |
trim |
| 선행 공백과 후행 공백과 줄 바꿈을 제거할 값을 트리밍할지 여부입니다. |