최상의 웹문서 수집엔진 – SyndiPlus
개요
인터넷의 등장은 정보화 사회로의 도약을 가져왔지만 인터넷 상의 중복된 내용, 각종 Banner 광고, 불필요한 첨부문서 등의 범람으로 인해 정확한 정보를 얻기는 더욱 어렵게 되었습니다.
또 다른 문제점 중 하나는 정보간의 호환성이 부족하다는 점입니다. 웹 상에 표현되는 정보들 중 상당수는 데이터베이스로부터 나오게 되는데, 웹 상에 표현되는 순간 정보들은 자신의 원래 데이터베이스 구조를 잃어버림으로써 정보의 재활용가치가 떨어지게 됩니다.
따라서 정보를 수집하는 측에서 중복된 부분이나 광고 등 불필요한 요소들을 제외하고 원하는 정보만 선택적으로 수집할 수 있는 기술과, 정보의 효용가치를 높이기 위해 특정 정보의 타입(날짜, 이미지, 본문, 작자 등)을 파악해서 수집할 수 있는 방법이 절실히 요구되게 되었습니다.
최상의 Solution: SyndiPlus
SyndiPlus는 인터넷에 산재해 있는 많은 웹 문서에서 자동으로 선택하여 제목, 내용, URL, 작성자, 첨부파일을 수집하는 수집엔진입니다. 이는 기존의 수집엔진이 구조적 페이지(예를 들어 게시판, 자료실 등)와 비 구조적 페이지(일반 웹페이지) 모두를 원하는 부분만 수집하지 못하는 단점을 보완하여 스크립트를 작성하여 모든 웹 사이트를 원하는 부분만 수집할 수 있도록 개발된 제품입니다.
SyndiPlus는 Internet Explorer 형태의 사용환경을 제공하여 초보 사용자가 친숙하게 사용할 수 있으며, 특히 수집 사이트 등록 과정을 마법사로 구성함에 따라 간단한 교육만으로도 쉽게 배울 수 있습니다.
SyndiPlus의 사이트 수집 데모 기능(SyndiSimulator)은 기존의 수집엔진에서 룰의 설정 값만을 보여주던 것을 실제 Robot이 수집하는 상황을 확인해 볼 수 있는 기능으로 현재 페이지가 제대로 수집 되는지, 수집 룰은 바꾸지 않아도 되는지를 간단히 확인할 수 있으므로 사용자의 관리가 용이합니다.
또한, 자동 룰(AUTO방식) 기능이 지원됨에 따라, 더 이상 사용자가 웹 페이지에서 수집하고 싶은 데이터를 하나씩 클릭하여 속성변경을 할 필요 없이 수집 룰을 "자동"으로 지정할 수 있습니다.
결론적으로 SyndiPlus는 그 동안 기존의 수집엔진으로 수집이 불가능했던 사이트를 중점적으로 해결하기 위하여 개발되었으며, 무엇보다도 사용자의 편의 및 관리의 용이를 목적으로 하고 있습니다.
특징 & 장점
- Windows vista, Windows 2008 지원
- 수집 대상 Site를 쉽게 추가, 제거할 수 있는 화면의 제공
Web Browse Client와 유사한 Browsing Interface를 채용하여, 간단한 마우스 클릭을 통해 수집 하고자 하는 정보를 쉽게 선택이 가능합니다.
정보를 선택하고 수집하는 과정이 웹 브라우저에서 인터넷 Surfing하는 과정과 동일하므로 관리자는 간단한 교육만으로도 사용이 가능합니다.
- 스크립트를 이용한 수집 룰 등록
기존(타사)의 제품들에서 수집하지 못하던 것을 개선하기 위하여 사용자가 수집 룰을 스크립트를 사용하여 등록/수정 함으로써 다양한 사이트에서 원하는 데이터만을 수집하는 것이 가능합니다.
- 다양한 부가 프로그램 제공
웹 사이트를 수집하기 위하여 수집 룰을 등록할 때 다양한 부가 프로그램들을 제공하여 손 쉽게 수집 룰을 등록하고 데이터를 수집할 수 있도록 합니다.
- 대상 문서를 분석하여 원하는 정보만 수집
사용자가 설정한 정보를 바탕으로 불필요한 정보를 제거하고 원하는 정보만 수집한다.
- 수집된 정보를 저장장치(DB)에 필드별로 저장
미리 정해진 (스크립트)규칙에 따라 수집한 데이터를 구조적으로 저장해서 정보의 활용도를 극대화 합니다.
- 향상된 관리자 회면 제공
관리자가 관리툴을 이용하여 현재의 로봇 구동 상황, 수집 현황/통계/오류를 한눈에 확인 할 수 있습니다.
기능 리스트
- 수집기능
- 게시판, 뉴스 페이지 형태를 (URL, 제목, 작성자, 본문, 첨부파일 등)필드별로 수집
- RSS 수집 기능 - 본문 페이지를 직접 수집 가능
- 구글봇처럼 링크를 따라가며 문서 전체 페이지 수집
- 사용자인증정보를 이용한 인증처리 기능
- 마법사를 통한 간편한 수집원 등록
- 사용자 정의 수집룰 추가/변경 가능
- 강력한 스크립트 편집 에디터 - Intellisence 지원
- 반복되는 스크립트를 공통으로 관리하는 라이브러리 지원
- 스크립트 작성 위한 웹문서를 분석하는 도움 프로그램 제공 - SyndiAnalyzer
- 작성한 스크립트 재연 위한 시뮬레이션 프로그램 제공 - SyndiSimulator
- RSS 글을 확인하기 위한 도움 기능 제공
- 인공지능의 자동 분석 룰 지정 기능 제공
- AJAX 페이지 수집 ( 부분 )
- 이미지/첨부파일 수집기능
- 수집 화면 저장 기능 - 지정된 크기로 변환 (썸네일)
- 완벽한 JavaScript 링크 처리
- 완벽한 Frame 처리
- 첨부파일/이미지파일/수집화면을 로컬은 물론 FTP, 원격네트웍 드라이브를 통해 원격 전송
- 관리기능
- 다중의 수집원의 타입(종류)를 설정 가능
- 전체/그룹별/수집원별 옵션 관리
- 복수개의 수집데이터 저장테이블 정의 가능
- 사용자 정의 필드 지원
- 수집원별 스케줄/옵션 별도 지정 기능
- 수집대상 페이지 변경 시 관리자에게 통보 기능
- 수집에러정보 위주로 관리자 메일 통보 기능
- 다양한 통계 지원 - 수집, 누적수집, 에러, 수집원 등록, 수집원 종류별 통계를 각 수집원 및 그룹별 일/월/년 단위로 그래프 및 엑셀 출력
- 관리툴을 통해 즉각적인 구동현황 파악 및 구동상태 조절
- 로그 및 에러 정보 제공
- 키워드를 통한 수집문서 필터링
- 다양한 중복문서 제거 옵션 제공
- 지원기능 , 부가기능
- 대용량 수집을 위한 멀티 서버 운용 컨트롤 및 로드 밸런싱 지원
- Windows 2003, Windows XP, Windows 2008, Windows Vista 지원
- Informix, MS-SQL, Oracle, Sybase 연동 제공
- XML, UTF-8을 이용하여 완벽한 Multi-Language 지원
- 다중 사용자 지원
- 데드 링크 체크 기능 ( Add-on )
- 중복 문서 체크 기능 ( Add-on )
구성도