'복사문서판독시스템', 네이버 이런 이유로 욕을 먹는거야!
오늘 블로그스피어인 올블로그에는 8월14일자 NHN Story 를 통해서 발표된 "원본? 복사본! 네이버 복사문서판독시스템이 알아냅니다!" 라는 네이버 복사문서판독시스템 적용 관련 소식이 떡이떡이 서명덕 기자의 "네이버, 불펌 중복자료 이렇게 걸러낸다" 포스팅을 통해서 알려지면서 핫 키워드로 떠올라 지금 이시간에도 메인에 자리를 지키고 있다.
예상대로 네이버 관련 포스팅이 줄을 이어 오르면서 관심도는 높아지고 있다. 리나님의 "네이버 불펌 걸러내긴 뭘 걸러내는건가?" 의 글에서 아르님의 댓글을 인용해가며 네이버의 문제점을 지적한 것에 대해 pei님이 "노력은 좀 인정해줍시다." 라는 포스팅을 통해서 네이버의 복사문서 판독시스템을 통한 개선의 의지를 높이 평가해주자는 의견에 충분히 공감하며 그들의 노력과 열정에 아낌없는 찬사를 보내고 싶은 마음이다. 아울러, pei님이 언급했듯이 복사문서판독시스템의 로직이 완벽하게 그 기능을 다할것이라고 판단하는것은 이르다고 생각을 한다.
하지만, 이런 결과들이 네이버의 노력과 열정에 대해 신뢰감을 가질 수 없도록 만들고, 심하게는 네이버가 티스토리 블로그에 불리한 패널티를 적용한다 또는 네이버 블로그를 옹호한다라는 말들을 나오게 만드는 것이고, 그 노력에도 불구하고 욕을 먹는것 아닐까 싶다.
복사문서판독시스템이란
카페, 블로그, 언론사 뉴스 문서의 복사유무와 그 정도를 계산하여, 중복문서는 통합 검색결과에서 제외함으로써 검색 서비스의 품질을 개선하는데 사용하는 시스템입니다. 이를 통해 ‘스크랩’ 기능을 통해 옮긴 문서뿐만 아니라, 복사(ctrl+C,V)해서 가져간 문서도 중복문서로 판독되어 검색에 노출되지 않게 됩니다.
네이버 복사문서판독시스템의 가장 큰 특징 기존 시스템과는 달리 하나의 문서를 의미 있는 단락단위로 나누어서 복사유무를 판독하기 때문에, 100% 똑같이 일치하는 문서뿐만 아니라 본문 일부가 중복되는 문서까지 알 수 있다는 점입니다.
또한, 블로그-블로그, 카페-카페 등 같은 콜렉션 내의 문서 이외에도 블로그-카페, 블로그-뉴스 등 다른 영역에서 복사한 문서까지도 알 수 있기 때문에 통합검색 전체적으로 더 나은 검색결과를 제공할 수 있습니다.
그럼 본론으로 들어가서 복사문서판독시스템의 로직에 근거하여 직접 판독 검색결과를 살펴보도록 하자.
최근 디자인로그에서 "동대문운동장, 2010년엔 이런 모습?" 이란 포스팅을 통해 서울특별시 홈페이지를 통해 공식발표된 동대문운동장 공원화 사업에 관한 기사를 발행한 적이 있고, 이에 앞서 이미 각종 인터넷뉴스를 통해 관련기사가 발빠르게 보도가 되었다. 디자인로그의 경우는 한 발 늦게 서울시 보도자료를 근거로 관련이미지를 자체 편집한 다음 약간 늦은 발행을 한터라 네이버의 복사문서판독시스템 로직에 어느정도 영향을 받을것이라는 가정하에 네이버에서 '동대문운동장'을 키워드로 검색을 했었다.
검색조건은 전체 블로그검색에 작성일 기준 중복결과 제외옵션을 선택한 결과로 궁금하면 아래 링크를 클릭해 보면 확인할 수 있듯이 9번째 검색결과와 클릭하고 위의
"동대문운동장, 2010년엔 이런 모습?" 링크를 클릭해서 비교해 보라.
http://cafeblog.search.naver.com/search.naver?where=post&query=%B5%BF%B4%EB%B9%AE%BF%EE%B5%BF%C0%E5&sm=tab_hty&x=25&y=13이것은 위의 검색결과 9번째 검색 글
"동대문운동장, 2010년엔 이런 모습?" 의 링크다.
http://blog.naver.com/glarejin?Redirect=Log&logNo=60041101190그 결과는 실로 놀라웠다. 그 검색결과 첫 페이지에 나타나는 상황을 보고 황당함을 감출수가 없었고 네이버의 신뢰성에 대한 의구심만 더 커졌다. 더 이상 할 말을 잃었다.
앞서도 운영중인 뉴스페이퍼2.0이 어떤 이유도 모른체 스팸블로거로 분류되어 1년이 넘게 네이버를 통해 검색되었던 글들이 한 순간에 완전히 삭제가 되었고, 공식적인 답변을 보내겠다는 네이버는 1주일이 넘도록 답변이 없는 상태다 더 웃기는 것은 뉴스페이퍼2.0을 일반등록으로 블로그검색에서 삭제된 다음 신청을 했는데 1주일만에 등록이 되었고, 신청한 내용과는 달리 네이버 마음대로 "인사이드 이슈" 타이틀로 등록해 주었는데 디렉토리 검색에만 보여질 뿐 웹페이지의 검색은 하나도 되지 않는 생색내기에 급급한 느낌일 뿐이다.
뉴스페이퍼를 통해 네이버의 뒷담화에 관련된 웃지못할 블랙리스트 링크 관련 이야기는 다음에 하도록 하겠다.
네이버 검색팀에게 묻고싶다. 이것이 네이버가 그렇게 자신있게 이야기 하는 복사문서판독시스템의 기대효과인지......아니면 네이버 검색로직의 부실을 은폐하려는 것인지.. 더이상 설명을 할 수 없으며, 애써 네이버의 복사문서판독시스템에 대해 논할 가치를 못 느낀다.
제발, 웹크롤링 안해도 좋고, 검색에 노출되지않아도 좋으니 블로그 글들이 삭제되었는지 공식적인 해명만이라도 듣기를 바랄뿐이다.
댓글 영역