은전한닢 프로젝트
정보
설명
검색 엔진에서 쓸만한 오픈소스 한국어 형태소 분석기를 만들자!
프로젝트 목표
적당한 품질과 성능의 한국어 형태소 분석기 만들기
형태소 분석기를 바탕으로 Lucene/Solr용 Analyzer 만들기
형태소 사전을 공동으로 관리할 수 있는 시스템 구축
아파치 라이센스 2.0를 선택하여 자유로운 사용이 가능
개발자
이용운
bibreen@gmail.com
재미있고 널널한 일을 좋아하는 개발자
유영호
mousegood@gmail.com
개발자
프로그램
형태소 분석기 엔진
mecab-ko
MeCab의 fork 프로젝트
사용 이유
사전, 코퍼스에 의존하지 않는 범용적인 설계
좋은 성능
아래와 같은 훌륭한 떡밥이 인터넷 상에 존재
참고
MeCab 홈페이지 (일본어)
MeCab을 이용한 한국어 형태소 분석과 폐쇄적인 21세기 세종 계획 성과물
MeCab를 이용한 한국어 형태소 분석
특징
띄어쓰기 오류 교정
비교적 빠른 속도 (검증 필요)
2013-02-10 현재 약 50만개의 어휘 제공
형태소 분석기
mecab-ko-dic
MeCab을 이용한 한국어 형태소 분석기용 사전
사전
21세기 세종 계획 사전 데이터 사용
온라인 사전 관리 시스템 제작하여 사전 보강 예정
학습용 말뭉치 (corpus)
21세기 세종 계획 말뭉치 데이터 사용
Lucene/Solr용 Tokenizer
mecab-ko-lucene-analyzer
기능
명사 추출
합성명사 분해
원어절 추출
Tokenizer
Standard[Index|Query]Tokenzier
온라인 형태소 사전 관리 시스템
웹에서 로그인 기반으로 단어를 추가, 수정, 삭제 할 수 있는 시스템
카테고리
기본사전
인물명 사전
인물외 이름 사전 (회사 이름, 상품 이름 등)
지역명(한국, 외국) 사전
외래어 사전
신조어, 비속어 사전
9336 views
0 comments