2013년 12월 30일 월요일

구글검색 | 2장 | 검색엔진이 보는 사이트의 내용

구글검색 | 2장 | 검색엔진이 보는 사이트의 내용


검색 엔진은 사이트를 어떻게 보는가?(검색엔진이 보는 사이트)

  여기에서는 우리가 평소 보고 있는 검색 결과가 어떤 구조로 표시되고 있는지 재차 설명해가겠습니다.

  검색 엔진은 크롤러와 로봇, 스파이더 등으로 불리는 시스템(여기서는 크롤러로 통일)에서 Web사이트를 자동으로 순회(방문)하고 링크를 따라 톱페이지에서 말단 하층 페이지까지 정보수집을 해 갑니다. 모두 자동으로 검색하여 처리하게 됩니다.

  이 크롤러가 정보를 수집한 것과 수집한 정보를 캐시(cache)라고 합니다. 크롤러는 오로지 정보를 수집하는 것이 그 역할이기 때문에 캐시한 정보는 엄청난 양이 됩니다. 따라서 수집된 Web페이지의 정보를 데이터베이스에 넣는 프로그램(인덱서)을 사용하여 URL과 페이지에 기재되어 있는 내용(문장 언어, 테그) 등을 특징별로 분석, 정리 정돈 (선별, 분류)하여 쉽게 찾을 수 있는 데이터로 변환하여 인덱스 서버에 저장하고 있습니다.

  우리가 한 번에 많은 정보를 얻을 때 각각의 카테고리와 내용에 따라 분류하는 것 같은 일이 행해지고 있는 것입니다. 여기까지의 준비가 끝나면, 나머지는 검색 사용자의 쿼리(query)를 기다리는 것 뿐이다.(유저가 검색하게되면 검색결과를 보내주기 전단계까지의 과정인 것이다.)(쿼리=키워드=검색어). 정리된 정보를 사용자가 찾고 있는 페이지로 제공하기 쉽게 하기 위해 검색 사용자의 쿼리(query, 검색어의 송신)에 따라 알고리즘을 사용해 검색 결과의 표시 순서 등의 정보를 추가한 다음 결과를 보냅니다.

  즉, 검색 결과에 표시되는 순위는 단순히 인덱스 서버에 들어있는 정보에 지나지 않고, 각 엔진이 보유하는 알고리즘에 따라 검색 결과로 표시되는 정보입니다.

  여기서 가장 중요한 것은, 원래 Web 페이지가 검색 엔진을 이해할 수 있는 사이트 구조로 되어 있고, 언제든지 캐시된 상태로 되어 있는지 여부입니다. (단적으로 적으면 사이트내에서 깨진 링크 등은 논외로 합니다.)

  Web 페이지에 시책 키워드를 삽입하거나, 외부 링크를 획득한다라는 일부의 알고리즘에 초점을 맞춘 SEO는 부차적이며, 우선 검색엔진에 있어서 이해하기 쉬운(친절한) Web페이지인가라는 것이 SEO의 출발점입니다.

그림 2-2 사람과 검색 엔진의 시선
사람의 눈으로 본 사이트

검색엔진의 눈으로 본 사이트


  구체적으로는 검색 엔진이 이해할 수 있는 정보는 텍스트정보 일뿐이며, 이미지 등의  binary code(2진수)는 불행히도 이해(평가)할 수 없습니다. 따라서 Web페이지를 볼 때, 인간의 시선 및 검색 엔진의 시선에는 큰 차이가 있다는 것을 이해하십시오.

  검색 엔진 크롤러는 Web페이지의 링크를 이용하여 페이지 사이를 순회하여 캐시를 실시 하기 때문에 검색 엔진이 찾을 수 없는 링크 구조로 되어 있거나 깨진 링크, 리다이렉트(Redirect) (URL 전송) 방법이 틀린 경우 등은 각 페이지에 대한 탐색(액세스)을 할 수 없게 되어 결과적으로 캐시되지 않게 되는 사태가 발생합니다.

  앞서 언급했듯이, SEO를 실시하는 사전 준비는 검색 엔진의 구조 (Web을 이해하고 순회할 수 있는 사이트 구조)을 파악하는 것, 알고리즘을 이해하는 것등 매우 간단한 일입니다. 이 때, 브라우저는 「인간의 눈」과 같기 때문에 브라우저에서 액세스되어 있다고 해서 크롤러가 액세스되어 있다고는 할 수 없다는 것에 주의 해야합니다.

  검색 엔진이 이해할 수 있는 구조에 대해서는 제 4장에서 그 외 알고리즘에 대해서는  제 5장에서 제 9장에 걸쳐 구체적으로 설명하겠습니다.

댓글 없음:

댓글 쓰기