최상의 웹문서 수집엔진 – SyndiPlus

개요

인터넷의 등장은 정보화 사회로의 도약을 가져왔지만 인터넷 상의 중복된 내용, 각종 Banner 광고, 불필요한 첨부문서 등의 범람으로 인해 정확한 정보를 얻기는 더욱 어렵게 되었습니다.
또 다른 문제점 중 하나는 정보간의 호환성이 부족하다는 점입니다. 웹 상에 표현되는 정보들 중 상당수는 데이터베이스로부터 나오게 되는데, 웹 상에 표현되는 순간 정보들은 자신의 원래 데이터베이스 구조를 잃어버림으로써 정보의 재활용가치가 떨어지게 됩니다.
따라서 정보를 수집하는 측에서 중복된 부분이나 광고 등 불필요한 요소들을 제외하고 원하는 정보만 선택적으로 수집할 수 있는 기술과, 정보의 효용가치를 높이기 위해 특정 정보의 타입(날짜, 이미지, 본문, 작자 등)을 파악해서 수집할 수 있는 방법이 절실히 요구되게 되었습니다.

최상의 Solution: SyndiPlus

SyndiPlus는 인터넷에 산재해 있는 많은 웹 문서에서 자동으로 선택하여 제목, 내용, URL, 작성자, 첨부파일을 수집하는 수집엔진입니다. 이는 기존의 수집엔진이 구조적 페이지(예를 들어 게시판, 자료실 등)와 비 구조적 페이지(일반 웹페이지) 모두를 원하는 부분만 수집하지 못하는 단점을 보완하여 스크립트를 작성하여 모든 웹 사이트를 원하는 부분만 수집할 수 있도록 개발된 제품입니다.
SyndiPlus는 Internet Explorer 형태의 사용환경을 제공하여 초보 사용자가 친숙하게 사용할 수 있으며, 특히 수집 사이트 등록 과정을 마법사로 구성함에 따라 간단한 교육만으로도 쉽게 배울 수 있습니다.
SyndiPlus의 사이트 수집 데모 기능(SyndiSimulator)은 기존의 수집엔진에서 룰의 설정 값만을 보여주던 것을 실제 Robot이 수집하는 상황을 확인해 볼 수 있는 기능으로 현재 페이지가 제대로 수집 되는지, 수집 룰은 바꾸지 않아도 되는지를 간단히 확인할 수 있으므로 사용자의 관리가 용이합니다.
또한, 자동 룰(AUTO방식) 기능이 지원됨에 따라, 더 이상 사용자가 웹 페이지에서 수집하고 싶은 데이터를 하나씩 클릭하여 속성변경을 할 필요 없이 수집 룰을 "자동"으로 지정할 수 있습니다.
결론적으로 SyndiPlus는 그 동안 기존의 수집엔진으로 수집이 불가능했던 사이트를 중점적으로 해결하기 위하여 개발되었으며, 무엇보다도 사용자의 편의 및 관리의 용이를 목적으로 하고 있습니다.

특징 & 장점

기능 리스트

구성도