취업 보고서 > 사회 실무 보고서

검색 엔진 설문 조사 보고서는 일반 대중의 비밀 개인 정보를 탐지합니다.


2 월 초, 제인 잭슨 (Jane Jackson)은 눈부심 때문에 야후 검색의 인기 챔피언에 올랐고 검색 요청 건수가 전체 검색 건수의 20 %에 이르렀고 야후 검색 키워드로는 최고 기록을 세웠다. 이 숫자는 인기있는 패리스 힐튼 (Paris Hilton)이 기록한 60 배이며 가수 브리트니 (Britney)의 80 배입니다.

인터넷상의 검색 엔진은 대중의 관심과 집중을 반영하는 최고의 도구가되었습니다.
아마도 다른 조사 통계보다 더 현실적 일 것입니다.

고 빈도 단어 및 사회적 핫스팟

역사 전반에 걸쳐 인기 어휘는 대중의 관심을 단기적으로 반영하며 장기적으로는 세계 발전에 이어질 수 있습니다. 미국의 코넬 대학교 (Cornell University)의 존 클라인 버그 (Jon Kleinberg) 연구원은 1790 년 이후 미국 전국 연대 (US State of Union) 연설문을 세어 다양한 역사적시기에 인기 어휘를 찾는 설문 조사를 실시했다. 예를 들어, 미국 독립 전쟁 중에 가장 빈번한 사건은 "민병대"와 "영국군"이었으며, 1947 년에서 1959 년까지 "핵 탄환"이 반복적으로 언급되었다.

오늘날 검색 엔진은 대중의 비밀을 알고 있다고 주장합니다. 검색 엔진은 단지 수동적으로 질문에 대답하는 것이 아니며, 주요 검색 엔진이 모든 통계를 제공하므로 결과가 흥미로울 수 있습니다. Keinberg는 컴퓨터가 기록을 이해하지 못하더라도 검색 요청의 의미를 더 잘 이해하기 위해 블로그, 전자 메일 및 웹 페이지의 텍스트를 세어 관련 배경 지식을 습득 할 수 있다고 믿습니다. 또한이 통계는 사회 학자와 마케팅 담당자가 연구 나 운영에 참조 정보를 제공하는 데 사용되는 새로운 경향을 발견하는 데 도움이 될 수 있습니다.

중국에서는 검색 엔진이 대중의 경향을 반영 할 수있는이 능력으로보다 광범위한 비즈니스 세계를 공격하기 위해 주도권을 쥐고 있습니다. 2004 년 2 월 12 일 Baidu Search and Light Media는 "2003 Global Chinese Star Popularity List"를 발표했습니다. 인기있는 어휘 인 Jay Chou, "Infernal Affairs", "Dragon", 대변인, 가십 및 그늘이 목록에 있습니다. 이에 앞서 1 월 8 일 Baidu 검색은 "2003 China Mainland Top 100 Popularity List"를 발표하기 위해 Hu Run과 협력했습니다.

그러나 검색 엔진이 때로는 압도 당합니다. 예를 들어, Google을 사용하여 Hamlet의 유명한 "검색 결과 표시 여부"를 검색하려고하면 Google이 질문에 대답했습니다. 목록은 GNU의 Unix 공식 웹 사이트, Hot or Not Dating 사이트에 있습니다 ... 셰익스피어의 그림자입니다. 이 고전적인 예는 검색 기술이라는 용어로 끝납니다.

이름에서 알 수 있듯이 컴퓨터의 모든 기능은 읽은 경우에도 계산을 기반으로합니다. 검색 엔진이 모든 구석에 배포 된 웹 페이지를 탐색하는 동안 백그라운드의 단어 발생 빈도를 계속 계산합니다. 어떤 단어는 발생 빈도가 매우 높기 때문에 통계 비용이 많이 들지만 중국어 단어 인 "예, 예", 영어 단어 "the, and"와 같이 너무 많은 구체적인 의미는 없습니다. 단어가 포함 된 모든 결과를 얻으려면 너무 많습니다. 예를 들어, 햄릿의 유명한 인용문에서 고주파수 어휘가 나오면 검색 엔진이 갑자기 멈추게되어 종종 "정지 단어"라고 부릅니다. 구글은 햄릿의 유명한 단어를 "읽을 때"4 개의 정지 단어를 접하게된다. 무력감 때문에 가장 낮은 빈도를 "not"로 검색하고 "not"에 대한 인기있는 웹 사이트를 찾아야했다.

이 유명한 따옴표를 따옴표에 넣으면 Google이 갑자기 관련 웹 사이트를 열어 성공적으로 찾습니다. 이 기능을 구문 검색이라고합니다. 그러나 Google보다 더 지능적 인 Alltheweb은 검색 디렉토리에이 유명한 문구를 포함하고 결과 페이지에 직접 관련 링크를 제공합니다.

달성 방법 검색

구글이 제시 한 검색 엔진의 속도와 효율성을 반영하여 0.06 초 "0.06 초가 걸렸습니다."인터넷에서 제럴드 살톤을 검색 한 결과 1 위에서 10 위까지의 5,430 개의 검색 결과가있었습니다. 어떻게이 모든 것이 달성 되었습니까?

일반적으로 컴퓨터 실에는 10 대의 서버 만 설치할 수 있지만 케이스와 부품을 제거한 상태로 베어 메탈로 구성되어 있으므로 Google은 컴퓨터 실에 80 대의 서버를 수용 할 수 있습니다. 래리 페이지 (Larry Page)와 세르게이 브린 (Sergey Brin)은 기계의 외부 케이싱을 제거하고 미사용 웨이퍼와 부품을 제거하여 기계를 더 작게 유지 보수하기 쉽게 만들었으며 물론 기계실 임대 비용이 절약되었습니다. Google은 방대한 양의 네트워크 정보에 대처하기 위해 10,000 개 이상의 서버를 사용하여 5 개 지역의 컴퓨터 실에 배포합니다.

모든 검색 요청에 신속하게 응답하기 위해 검색 엔진은 초기 단계에서 열심히했습니다. 그들은 백그라운드에서 세 단계를 반복합니다. 첫 번째 단계에서 검색 엔진은 크롤러를 사용하여 인터넷에있는 모든 액세스 가능한 웹 페이지를 공개적으로 또는 비공개로 수집합니다. 방문자가 방문하면 "크롤러"상체가 발생합니다. 이런 방식으로, 정기적으로 나가는 "크롤러"는 검색 엔진을위한 방대한 데이터베이스를 저장합니다. '크롤러'가 일정 기간 동안 나가기 때문에 웹 페이지 업데이트 속도를 따라갈 수없는 경우가 있으므로 Google의 '페이지 스냅 샷'이 대상 페이지와 다르게 표시됩니다. 두 번째 단계에서는 다른 프로그램이 캐시 된 페이지의 각 단어가 나타나는 빈도를 계산합니다. 세 번째 단계는 단어의 빈도에 따라 페이지의 중심 아이디어와 단락을 요약 한 다음 다른 키워드에 따라 색인 디렉토리를 추출하는 것입니다. 사용자의 각 검색 요청은 이러한 색인을 기반으로 계산되므로 응답이 매우 빠릅니다.

Baidu의 특허받은 PageRank 기술이나 Baidu의 고유 한 "슈퍼 체인 분석"기술에 관계없이 일반적인 아이디어는 비슷합니다. 통계는 각 페이지가 다른 웹 링크에 의해 가리켜지는 것을 보여줍니다. 숫자가 높을수록 레벨이 높아지고 순위가 높아집니다. 전면으로. 일부 검색 엔진 전문가는 SearchRank가 PageRank보다 더 정확하다고 지적합니다. UsedRank는 사용자가 검색 결과를 클릭하면 다시 만들어진 통계를 나타냅니다. 일부 페이지는 초기 계산에 의해 결과의 8 번째 페이지에 순위가 매길 수 있지만 각 링크의 속성을 보면 사용자가 클릭하고 성공적으로 탐색하는 페이지를 참조 할 수 있습니다. Alltheweb, Yahoo 및 Baidu와 같은 검색 엔진은 모든 클릭을 정직하게 계산했지만 Google은 매우 간단하며 다시 언급하지 않습니다.

많은 서비스 웹 사이트는 사용자가 게으른 관점에 동의합니다. 클릭에 의한 통계에 따르면 많은 사용자는 일반적으로 검색 결과의 첫 번째 페이지 만 읽고 이후 페이지는 탐색하지 않습니다. 따라서 일부 웹 사이트는 Yahoo와 같이 첫 페이지에 20 개의 항목이있는 검색 결과를 더 많이 표시합니다. 시나 (Sina)는 발렌타인 데이에 "꽃"을 찾아 최고점에 이르는 "및"아웃 (out-out) 서비스 양식을 개발했으며 갑자기 78 개의 웹 사이트에서 뛰어 내 렸습니다. 그러나 Google, Alltheweb 및 Baidu와 같은 검색 엔진은 여전히 ​​간단한 스타일을 고집하며 페이지 당 10 개의 검색 결과 만 표시합니다.

다양한 검색 알고리즘 외에도 다양한 검색 엔진이 서비스를 개선하여 모두가 좋아하는 Google 이미지 검색과 같이 점점 더 풍부한 검색 기능을 제공합니다. 사실 Alltheweb의 이미지 기능 또한 매우 뛰어나며 오디오, 비디오 및 다운로드 사이트 검색도 지원합니다.

통합 검색 엔진

따라서 사용자는 검색 결과를 얻기 위해 각 검색 엔진에 하나씩 액세스해야합니까? 어쩌면. 검색 통합 기술은 최대한 많은 정보를 한 번에 제공 할 수 있습니다.

검색 통합은 "검색 후"로 번역 된 경우 더 유행하게 들릴 수 있지만 검색 결과를 재구성하는 기능을 반영하지는 않습니다. 일반적인 검색은 특정 단서에 따라 다양한 네트워크 리소스에서 정보를 추출하는 반면 메타 검색은 검색을위한 검색 인 다른 검색 엔진의 결과를 다시 처리합니다.

사용자가 검색 통합 엔진에 키워드를 입력하면 동시에 여러 독립적으로 작동하는 검색 엔진에 검색 요청을 전송하고 웹 데이터베이스에서 필요한 정보를 검색합니다. 검색 통합 엔진은 자체 웹 데이터베이스를 구축하지 않으며 모든 데이터는 다른 검색 엔진에서 제공되므로 통합 결과는 다른 검색 엔진의 결과보다 좋지 않습니다. 그러나 메타 검색의 초창기에 이상적인,보다 체계적인 검색 결과를 제공하면서 반복적 인 작업을 할 필요가 없습니다.

현재 검색 통합 엔진은 대략 두 가지 방식으로 작동합니다. 보다 일반적인 방법은 검색 결과 분석을 통합하고 중복 항목을 제거한 다음 주제에 대해 클러스터링 작업을 수행하는 것입니다. 이 사이트 중 가장 좋은 사이트는 Vivisimo, MetaCrawler 및 DogPile입니다. 검색 통합 사이트의 또 다른 유형은 SurfWax 및 Copernic Agent와 같은 엄격한 연구자를 대상으로합니다. 그들은 키워드의 논리적 인 조작을 제공하여 사용자가 정보를 채굴하면서 많은 검색 결과를 제공함으로써보다 심층적 인 조사를 할 수 있도록합니다. 두 번째 유형의 웹 사이트는 매우 전문적이며 일반적으로 일반 사용자에게는 인기가없는 지불이 필요합니다.

검색 엔진 데이터 정보

● 인터넷 응용 프로그램 순위에서 검색은 전자 메일에 이어 두 번째입니다.

● 입력 당 1 인당 키워드 수는 1.3입니다.

● 웹 페이지에서 고 빈도 어휘의 발생률은 총 단어 수의 약 1/3을 차지하며 실제 검색에서는 거의 작동하지 않습니다.

● 사용자의 0.5 % 미만이 검색 엔진의 고급 기능을 사용하며 그 중 일부는 사서입니다. 그들은 독자들에게 그들이 찾을 수없는 정보를 제공하며 그들이 사용하는 도구는 검색 엔진이지만 고급 기능입니다.

● 2003 년 Baidu는 1700 만 명의 중국 인터넷 사용자가 110 억 회 사용했으며 그 중 7 백만 건이 중국 별과 관련이있었습니다.

추천 기사

인기있는 기사