관리 메뉴

MY IT Life

6. 크롤링 설정 본문

02. Microsoft/Sharepoint 2010

6. 크롤링 설정

IT정보 검짱돌이 2013. 5. 8. 15:21

집합된 검색과 인덱싱은 SharePoint 2010의 가장 중요한 기능 중 하나입니다. 검색 엔진의 핵심은 크롤러(Crawler)이며, 크롤러는 인덱스에 있어야 하는 콘텐츠의 콘텐츠 소스에서 데이터를 수집합니다. 인덱스가 생성된 후 사용자는 결과를 얻기 위해 인덱스에서 쿼리를 실행하게 됩니다. 크롤러는 콘텐츠 원본에 연결한 후 크롤링 되도록 설정 되어있는 모든 파일을 다운로드 받습니다. 또한 크롤러는 다양한 파일 형식의 iFilter(Index Filter)를 로딩하여 파일을 연후 이 파일의 콘텐츠를 읽게 됩니다. iFilter는 크롤러에게 문서의 어떤 부분이 텍스트이고 포맷인지 알려줍니다.

크롤러가 콘텐츠 원본에 연결되고 문서를 열게 되면, 크롤러는 콘텐츠 원본에서 콘텐츠를 인덱스 프로세스로 스트림(stream)하게 됩니다. 인덱서(Indexer)는 이 스트림을64KB 청크(chunk)로 쪼개고, word breaking을 수행하고, 단어를 분석한 후 불필요한 단어는 제거하고(인덱스에서 표시되지 않도록 설정한 단어)난 후 이 콘텐츠를 인덱스로 보내고, 메타데이터와 보안ACL(Access Control List)을 검색서비스를 위한SQL Search Database로 보내게 됩니다.

   

[팜 수준의 검색 설정]

팜 수준의 검색 서비스 설정은 아래와 같은 페이지에서 설정할 수 있습니다.

  1. [중앙 관리 - 일반 응용 프로그램 설정]을 클릭한 후 [검색] 섹션에서[팜 검색 관리]를 클릭합니다.

  • 아래와 같이 팜 검색 관리가 표시됩니다.
    • 프록시 서버 : 웹 사이트를 위한 크롤러는 기본적으로 브라우저이기 때문에 프록시 설정은 federated query 옵션을 제외하면 Internet Explorer 설정과 거의 동일합니다.
    • 제한시간 : 콘텐츠 원본의 연결 제한시간과 요청 승인시간을 설정할 수 있습니다.
    • SSL 경고무시 : 인증서가 정확하게 일치하지 않더라도 브라우저가 사이트를 적절하다고 인증하는 설정입니다. 이 설정은 기본이 "아니요"이기 때문에 인증서 오류가 발생하는 경우 크롤링이 실행되지 않습니다.
    • 토폴로지 수정: 검색 서비스 관리페이지의 설정과 동일한 내용을 보여줍니다.

   

[크롤러 영향 규칙 관리]

크롤러 영향 규칙은 크롤러가 어떤 원본을 인덱스 할지 비율을 제어하는 옵션 메커니즘 입니다.

  1. [중앙 관리 - 일반 응용 프로그램 설정]을 클릭한 후 [검색] 섹션에서 [크롤러 영향규칙]을 클릭합니다.

  2. [규칙 추가]를 클릭합니다.

  3. 아래와 같이 새로운 크롤러 규칙을 생성할 수 있습니다.

    사이트 : 규칙은 크롤링에서 사용되는 커넥터나 콘텐츠 원본과 상관이 없기 때문에 유효한 크롤러규칙은 프로토콜(https://, Http:// file://등) 을 정의하지 않아야 합니다.

    요청빈도 : 동시 요청수를 제한하고자 한다면 이 설정을 1, 2, 4, 8, 16, 32, 64로 설정할 수 있습니다. 처음으로 인덱스를 생성할 때 사이트는 "*"로 설정하고 동시 요청수를"1"로 설정할 수 있습니다. 또한 크롤러를 한 번에 한 문서만 요청하고 요청을 큐로 전송하도록 설정할 수 있습니다. 동시요청과 지연요청에 똑같이 "1"로 설정했다고 하더라도 이 차이는 매우 큽니다.

     

[Search Service 응용프로그램 생성]

검색 서비스 응용 프로그램을 생성하기 위해서는 아래와 같이 진행할 수 있습니다.

  1. [중앙 관리 - 응용 프로그램 관리]를 클릭한 후 [서비스 응용프로그램]섹션에서 [서비스 응용 프로그램 관리]를 클릭합니다.

  2. 리본 메뉴의 [서비스 응용 프로그램 관리]를 클릭한 후 [새로 만들기 - Search Service 응용 프로그램]을 클릭합니다.

  • Search Service 응용 프로그램을 생성하는 창이 실행되면 아래와 같은 정보를 입력합니다.
    • 이름 : 새 Search Service 응용 프로그램을 위한 적절한 이름을 입력합니다.
    • FAST Service 응용프로그램 : FAST Search는 기본SharePoint 검색과 다른 향상된 검색을 제공합니다. 예를 들어 검색결과에 표시된 Office 문서에 대한 미리보기 기능, 강화된 사람 검색 등이 FAST에 포함됩니다. FAST는 별도의 구성이 필요합니다.
    • Search Service 계정 : 이 계정은 관리되는 서비스 계정이어야 하며, 팜의 모든 검색서비스에서 동일하게 사용되는 계정입니다. 다른 서비스계정과 마찬가지로[중앙관리-보안]을 클릭한 후[일반 보안] 섹션의[서비스 계정구 성]을 클릭하여 변경할 수 있습니다.

   

[콘텐츠 원본 생성 및 관리]

Search와 인덱스 토폴로지에서 가장 먼저 해야 하는 관리 작업은 콘텐츠 원본 생성입니다. 콘텐츠 원본은 동일한 형식의 연결을 통해 액세스하는 시작 주소의 모음입니다. 시작 주소는 크롤러가 프로세스를 시작하는 URL 위치입니다. 콘텐츠원본은SharePoint 사이트, 웹 사이트, 파일 공유, Exchange 공유폴더, LOB(Line of Business) 데이터, 사용자 지정 저장소를 사용할수 있습니다.

  1. [중앙 관리 - 응용 프로그램 관리]를 클릭한 후 [서비스 응용 프로그램] 섹션의 [서비스 응용 프로그램 관리]를 클릭합니다.

  2. [서비스 응용 프로그램]에서 "Search Service 응용 프로그램" 하이퍼링크를 클릭합니다.

  3. [크롤링 - 크롤링 원본]을 클릭합니다.

       

   

'02. Microsoft > Sharepoint 2010' 카테고리의 다른 글

6. 크롤링 설정  (0) 2013.05.08
5. Enterprise Search  (0) 2013.05.08
4. 문서센터 만들기  (0) 2013.05.08
4. 프로필 동기화  (0) 2013.05.08
3. Core Operation 구성  (0) 2013.05.08
3. 폰트 변경  (0) 2013.05.08
0 Comments
댓글쓰기 폼