-
-
Notifications
You must be signed in to change notification settings - Fork 32
New issue
Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.
By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.
Already on GitHub? Sign in to your account
타모듈에서 std::length_error 에러 발생 #172
Comments
@justHungryMan 안녕하세요 |
에러 재현코드 전달드립니다. python3.12 에서 재현했습니다. 에러메시지
requirements.txt
재현코드
재현 데이터 Datatrove 내부에서 한국어의 경우 load_word_tokenizer에서 kiwipiepy 토크나이저를 불러�와서 사용합니다. |
@justHungryMan 코드와 데이터 공유 감사합니다.
해당 문제를 해결하는 패치를 준비 중이지만 시간이 좀 걸릴 수 있습니다. 만약 그전에 이 문제를 회피하고 싶으시다면 공백 문자 없이 8000글자 이상이 연속해서 등장하는 텍스트는 kiwipiepy를 태우지 않고 별도의 처리를 하시는걸 추천해드립니다. import re
if not re.search(r'[^\s]{8000,}', text):
tokenizer.word_tokenize(text)
else:
# Plan B |
빠른 대응 정말 감사합니다. 저희쪽 모듈에 알려주신 방법으로 버리는 문서없이 적용 가능할 것 같습니다. |
전체적으로 오류가 생겼던 파일들을 재점검하고 있는데 8000글자 반복의 텍스트에서도 같은 문제가 생기는 것을 발생했습니다. 우선 문제보고를 드리고 추가적으로 문제가 발생한다면 종합해서 공유드리겠습니다. |
commoncrawl 의 2017년도에서 2024년도까지 돌려본 결과 공백 문자 없이 6000글자로 수정시 문제없이 동작하는 것을 확인했습니다. 혹시 릴리즈되면 이슈에 써주실 수 있으실까요? 이 모듈을 사용하는 datatrove에도 문제가 해결되었다고 noti하려고 합니다. |
@justHungryMan 자세한 확인 감사합니다. |
@justHungryMan 해당 이슈 해결된 0.18.1 버전 릴리즈 완료되었습니다~ 다시 한번 오류 제보에 감사드립니다! |
안녕하세요.
Datatrove 에서 한국어 토크나이즈시 kiwipiepy 모듈을 사용하고 있습니다.
간혹 commoncrawl 상의 한국어 문서를 파싱할때 아래와 같은 에러가 발생합니다.
하지만 에러 위치를 알 수가 없고 python상에서 try catchable 문법에서 걸러지지 않고 있습니다. (huggingface/datatrove#279)
혹시 관련해서 해결방법이 있을까요?
The text was updated successfully, but these errors were encountered: