달력

02

« 2012/02 »

  •  
  •  
  •  
  • 1
  • 2
  • 3
  • 4
  • 5
  • 6
  • 7
  • 8
  • 9
  • 10
  • 11
  • 12
  • 13
  • 14
  • 15
  • 16
  • 17
  • 18
  • 19
  • 20
  • 21
  • 22
  • 23
  • 24
  • 25
  • 26
  • 27
  • 28
  • 29
  •  
  •  
  •  

이번 학기에 수강한 '정보검색이론연구'에서 다룬 주요 공식들을 정리해보았다.
정영미 교수님의 '정보검색연구' 3장, 7장 내용에서 주로 발췌되었으며,
시험 준비용이어서 조금 두서가 없지만,
혹시 쉽게 해당 공식들을 접하고자 하는 연구자들에게 도움이 될까해서 올려본다.

< 목차 >

3장 텍스트 자동색인
- 용어 가중치 공식
- 적합성 가중치

7장 정보검색 모형
- 불리언 검색
- 퍼지집합
- 확장 불리언 검색
- P-norm 모형
- 벡터공간 검색
- LSI 검색
- 확률 검색
- 추론망 검색
- 신경망 검색

8장 정보검색 성능 향상 전략
- 효과적인 질의 작성
- 질의어 확장 (Query Expansion)
- 연관검색 (적합문헌과 유사한 문헌 추가 검색)
- 검색결과 결합
  컬렉션 결합, 데이터 결합



2008. 7. 18 update : 8장도 내용도 추가해서 정리했음

Posted by 시루

이번 학기에 있었던 '정보검색이론연구' 수업에서
학기말 연구보고서로 작성한 페이퍼이다.

업계에서 검색기획을 하면서 '최신성' 랭킹 피쳐는
흔히 말하는 '정확도'와 엇갈리면서 랭킹 모델링을 하는데 있어서
많은 고민거리를 던져줬던 피쳐이다.

본 연구의 실험은 상대적으로 '최신성' 요소를 더 강조해야 하는 질의어셋을 미리 예상해서,
정확도와 최신성 가중치를 동적으로 조정하는 것이다.

질의어의 '최신성'에 대한 예상은
뉴스 기사 내 날짜별 키워드 빈도 패턴을 가지고 진행했으며,
가중치 결합함수를 이용하여 정확도와 최신성 가중치를 결합해보았다.

실험 결과 여러가지 가중치 계수의 튜닝이나
뉴스 기사 내 키워드 빈도 패턴에 대한 마이닝 정교화가 부족하여
성능은 높게 나타나지 않았으나,
검색 랭킹 모델링을 연구하는 학계에서 '최신성' 요소에 대한 관심을 갖는
계기가 되었다는 점에서 본 연구의 의의가 있다고 생각된다.

향후 일부 분야의 신문기사로 한정되었던 데이터 풀을 확대하고,
본 실험에서 제시한 가중치 모델을 보다 정교화하여 추가적인 연구를 진행할 예정이다.

< 목차 >

I. 서론
 1. 연구 배경 및 목적
 2. 연구 범위 및 방법

II. 이론적 배경
 1. 데이터 결합에 대한 연구
 2. 최신성 가중치에 대한 연구

III. 실험설계
 1. 실험개요
 2. 실험집단
 3. 검색모형 및 가중치
 4. 실험결과 평가 척도

IV. 실험결과 및 분석
 1. 용어의 최신성 가중치 측정 실험
 2. 최신성 가중치 적용에 따른 용어-문헌 적합성 비교

V. 결론 및 제언

참고문헌

Posted by 시루