37
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN KHOA KHOA HỌC MÁY TÍNH MÔN HỌC GIỚI THIỆU NGÀNH BÀI BÁO CÁO Đồ án: Khảo sát và phân tích một số kĩ thuật trong hệ thống tìm kiếm dựa trên từ khóa của website google.com

Bao caogtn

Embed Size (px)

Citation preview

Page 1: Bao caogtn

TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TINKHOA KHOA HỌC MÁY TÍNH

MÔN HỌCGIỚI THIỆU NGÀNH

BÀI BÁO CÁO

Đồ án: Khảo sát và phân tích một số kĩ thuật trong hệ thống tìm kiếm dựa trên từ khóa của website

google.com

Lớp: IT009.F24GVHD: Nguyển Gia Tuấn AnhSVTH:

- Trần Minh Nhật – 13520583 (Nhóm trưởng) .- Lê Nhật Tánh – 13520756- Trần Huỳnh Ngọc Tiên – 14520946- Lê Quang Phú -14520680- Đinh Ngọc Tuấn -14521040

TP.Hồ Chí Minh, tháng 03 năm 2015

Page 2: Bao caogtn

MỤC LỤC

Chương I: Phần Mở Đầu ……………………………………………………….……….3

Chương II: Lịch Sử Phát Triển Của Google & Hình Thành Của Search Engine

Google……………………………………………………………………………….…….4

1. Giới thiệu chung về Google…………………………………………….….

….4

2. Lịch sử phát triển của Google……………………………………….

………..4

3. Những chặn đường phát triển của

Google.com……………………………...5

3.1. Sự phát triển của Google………………………………………….......5

3.2. Những lần thay đổi giao diện của công cụ tìm kiếm……………...

….14

Chương III: Cơ chế tìm kiếm của

Google……………………………………………...19

1. Các bộ phận của công cụ tìm kiếm…………………………………………19

1.1. Bộ phận thu thập dữ liệu………………………………………….

….19

1.2. Bộ phận lập chỉ mục (index)……………………………………….…

20

1.3. Bộ phận xử lí– tính

toán……………………………………………....21

1.3.1. Thuật toán Google Panda ……………………………………...…

22

Page 3: Bao caogtn

1.3.2. Thuật toán Google Penguin………………………………...

…….22

1.3.3. Thuật toán Google Hummingbird…………………………….....23

1.3.4. Thuật toán Google Zebra……………………………………...

….23

1.3.5. Thuật toán Google Pigeon……………………………………..…24

2. Cơ chế hoạt động của Google

Spider……………………………………......24

3. Tổng kết về cách Google hoạt động……………………………………….…

25

Page 4: Bao caogtn

Chương I. Phần Mở Đầu

Internet ra dời mở ra một thời đại công nghệ thông tin và truyền thông vượt trội, đánh

dấu một bước ngoặt lịch sử mang con người đến gần nhau hơn. Với một tốc độ phát triển

chóng mặt từ số lượng đến đường truyền, nội dung phong phú, từ 4 địa điểm kết nối

mạng ở Mỹ, ngày nay internet dường như đã có mặt ở mọi lĩnh vực trong cuộc sống, và

trở thành một xu hướng phát triển tất yếu.

Internet khai sáng một kỷ nguyên mới mà ở đó con ngưởi có thể tìm kiếm khai thác thông

tin, trao đổi, học tập…thông qua một thế giới ảo nhưng vô cùng tiện ích. Cùng với sự

phát triển chung của xã hội loài người, internet cũng không nằm ngoài ngoại lệ đó, con

người luôn yêu cầu về chất lượng nhanh hơn, chính xác hơn từ internet. Tất nhiên có

cung thì ắt có cầu. Với một kho dữ liệu khổng lồ từ các máy chủ và mạng máy tính toàn

cầu, người dùng internet khó lòng tìm được chính xác, hay khai thác được hết thông tin

mà người dùng cần tìm kiếm. Sẽ rất khó khăn cho người sử dụng truy cập vào Internet để

tìm kiếm một website có chủ đề phục vụ cho mục đích của mình vì hàng ngày có khoảng

hơn 100.000 website mới được đưa lên mạng. Số lượng website trên mạng Internet hiện

nay đã lên tới hơn 5 tỷ. Vì vậy, để phục vụ việc tìm kiếm nhanh chóng website của người

sử dụng Internet, các công ty phần mềm trên thế giới đã viết ra những phần mềm mà ta

gọi chung là Search Engine (máy tìm kiếm, hay công cụ tìm kiếm).

Search Engine là phần mềm cung cấp các địa chỉ Web có chứa một hay nhiều thông tin,

từ khoá (keywords) mà người dùng cần tìm kiếm. Hay nói một cách dễ hiểu Search

Engine là các công cụ tìm kiếm như Google.com, Yahoo.com hay Bing.com… Đây là

những công cụ tìm kiếm phổ biến và chiếm thị phần lớn nhất.

Search Engine là một thư viện thông tin khổng lồ về các website, cho phép người sử dụng

có thể tìm kiếm các website cần quan tâm theo một chủ đề nào đó căn cứ vào các từ khóa

(keywords) mà người đó yêu cầu Search Engine tìm kiếm.

Page 5: Bao caogtn

Search Engine phổ biến nhất hiện nay chiếm đến 75.2% thị phần tìm kiếm là search

engine Google. Chúng ta sẽ đi sâu và chi tiết về lịch sử và cách thức hoạt động của

Search Engine Google.

Chương II. Lịch Sử Phát Triển Của Google & Hình Thành Của Search Engine

Google

1. Giới thiệu chung về Google

Google là một công ty internet có trụ sở tại Mỹ, được thành lập vào năm 1998. Sản phẩm

chính của công ty này là công cụ tìm kiếm Google, được nhiều người đánh giá là công cụ

tìm kiếm hữu ích và mạnh mẽ nhất trên Internet. Trụ sở của Google tên là "Googleplex"

tại Mountain View, California. Giám đốc không người nào khác đó là Larry page, 1 trong

2 người sáng lập ra công ty. Tên "Google" là một lỗi chính tả của từ googol, bằng 10100.

Google chọn tên này để thể hiện sứ mệnh của công ty để sắp xếp số lượng thông tin

khổng lồ trên mạng. Googleplex, tên của trụ sở Google, có nghĩa là 10googol.

2. Lịch sử phát triển của Google

Đầu tiên (1996), Google là một công trình nghiên cứu của Larry Page và Sergey Brin hai

nghiên cứu sinh tại trường Đại Học Stanford. Họ có giả thuyết cho rằng một công cụ tìm

kiếm dựa vào phân tích các liên hệ giữa các website sẽ đem lại kết quả tốt hơn cách đang

được hiện hành lúc bấy giờ (1996). Đầu tiên nó được gọi là BackRub (Gãi lưng) tại vì hệ

thống này dùng các liên kết đến để ước tính tầm quan trọng của trang.

Page và Brin tin rằng những trang có nhiều liên kết đến nhất từ các trang thích hợp khác

sẽ là những trang thích hợp nhất. Họ đã quyết định thử nghiệm giả thuyết trong nghiên

cứu của họ, tạo nền móng cho công cụ Google hiện đại bây giờ (http://www.google.com).

Tên miền www.google.com được đăng ký ngày 15 tháng 9 năm 1997. Họ chính thức

thành lập công tyGoogle, Inc. ngày 7 tháng năm 1998 tại một ga ra của nhà Esther

Wojcicki (cũng là nhân viên thứ 16 của Google, Phó Chủ tịch cấp cao, phụ trách bộ phận

quảng cáo) tại Menlo Park, California. Trong tháng 2 năm 1999, trụ sở dọn đến Palo

Alto, là thành phố có nhiều trụ sở công ty công nghệ khác. Sau khi đổi chỗ hai lần nữa vì

Page 6: Bao caogtn

công ty quá lớn, trụ sở nay được đặt tại Mountain View, California, tại địa chỉ 1600

Amphitheater Parkway vào năm 2003.

3. Những chặn đường phát triển của Google

3.1. Sự phát triển của Google

Giai đoạn 1996-1997: BackRub

Khi Page và Brin gặp nhau tại đại học Stanford năm 1995 và cùng nhau quyết định tạo ra 1 công cụ tìm kiếm với tên gọi BackRub vào tháng 1/1996.

Sau đó, cả 2 quyết định biến đổi tên gọi công cụ tìm kiếm của mình thành Google, 1 cách chơi chữ cho từ “gooogol”, với ý nghĩa của số 1 kèm theo 100 số 0 đằng sau, với hàm ý nhiệm vụ của họ để tạo nên 1 số lượng vô hạn các nguồn tài nguyên trên website. Và thực sự họ đã làm được.

1998: trang chủ đầu tiên của Google ra đời

Ngày 16/9, tên miền Google.com chính thức được đăng ký, tuy nhiên đến tận tháng 11, trang chủ của Google mới được xuất hiện. Vào đầu năm này, 2 nhà đồng sáng lập đã nhận được khoảng tài trợ đầu tiên giá trị 100.000 USD từ nhà đầu tư Andy Bechtolsheim.

Tháng 9/1998, Larry Page và Sergey Brin từ khoảng đầu tư này đã quyết định thành lập công ty Google Inc trong gara căn hộ tại Menlo Park, California (Mỹ) và quyết định thuê nhân viên đầu tiên, Craig Silverstein.

Hình 2.3.1. Giao diện đầu tiên trang chủ Google

Page 7: Bao caogtn

Một điều khá thú vị là cả Page lẫn Brin không giỏi trong việc sử dụng ngôn ngữ lập trình web HTML, do vậy, trang chủ của đầu tiên của Google khá sơ sài. Kèm với đó, cả 2 đã phải chèn thêm 1 thông điệp phía cuối trang để thông báo cho người dùng được biết nội dung trang đã được tải hết.

Năm 1999: Chuyển đến văn phòng mới

Sau 1 năm ra đời, Google chuyển đến trụ sở mỡi tại Mountain View (bang California), chính là trụ sở chính ngày nay của Google. Hãng cũng đã nhận thêm khoảng tiền đầu tư lên đến 25 triệu USD từ các nhà đầu tư.

Hình 2.3.2. Tính năng tìm kiếm “Uncle Sam”

Cũng trong năm nay, “Uncle Sam” (Chú Sam) là thuật ngữ quen thuộc của người Mỹ và Google đã đưa thêm thuật ngữ này lên trang chủ của mình vào năm 1999, cho phép người dùng tìm kiếm các tài liệu liên quan đến chính phủ Mỹ.

Năm 2000: Google trở thành công cụ tìm kiếm mặc định của Yahoo

Google đã dần khẳng định tên tuổi của mình khi hợp tác và trở thành công cụ tìm kiếm mặc định của Yahoo, là “thế lực hàng đầu” vào thời điểm đó trong làng công nghệ.

Page 8: Bao caogtn

Hình 2.3.3.Bắt tay với Yahoo là 1 động thái khẳng định “tên tuổi” của Google

Ngoài sự hợp tác này, Google tuyên bố rằng mình đã đánh dấu được hơn 1 tỷ trang web và trở thành công cụ tìm kiếm lớn nhất thế giới. Trong năm này, Google cũng lần đầu tiên ra mắt dịch vụ quảng cáo Adword, dịch vụ cho phép các doanh nghiệp mua quảng cáo theo từ khóa để xuất hiện nội dung quảng cáo cạnh kết quả tìm kiếm.

Năm 2001: Ra mắt công cụ tìm kiếm hình ảnh

Tính năng tìm kiếm hình ảnh (Image search) được Google công bố vào tháng 7/2001. Ngay khi ra mắt, Google cho biết đã ghi dấu được hơn 250 triệu hình ảnh.

Page 9: Bao caogtn

Hình 2.3.4. Tính năng tìm kiếm hình ảnh vẫn là tính năng hữu ích ngày nay

Năm 2002: Thiết bị Google Search Applicance

Đầu năm 2002, Google giới thiệu thiết bị phần cứng đầu tiên của mình, Google Search Appliance, thiết bị cho phép kết nối với máy tính và cung cấp các tính năng tìm kiếm nâng cao cho dữ liệu bên trong.

Hình 2.3.5. Đây là thiết bị phần cứng đầu tiên của Google

Năm 2003: Ra mắt Adsense

Google giới thiệu công cụ quảng cáo trực tuyến lớn nhất thế giới, Adsense. Đây là hình thức quảng cáo kết hợp cùng Google Adword, cho phép đặt quảng cáo từ các nhà quảng cáo lên các trang web từ bên thứ 3 để thu hút thêm khách ghé thăm cho các nhà quảng cáo.

Hình 2.3.6. Adsense là “con gà đẻ trứng vàng” thực sự của Google

Page 10: Bao caogtn

Năm 2004: Dịch vụ email Gmail

Google ra mắt Gmail vào đúng ngày “cá tháng tư” 1/4/2004, tuy nhiên phiên bản thử nghiệm yêu cầu người dùng phải có thư mời mới được phép tham gia. Tuy còn nhiều hạn chế, tuy nhiên Gmail đã nhanh chóng thu hút được đông đảo người sử dụng nhờ những ưu điểm vượt trội của nó.

Hình 2.3.7. Gmail hiện là dịch vụ email hàng đầu hiện nay

Ngày nay, Google đã mở cửa để người dùng tham gia Gmail miễn phí và Gmail nhanh chóng trở thành dịch vụ email hàng đầu thế giới về lượng người dùng.

Năm 2005: Bản đồ trực tuyến Google Maps

Bản đồ trực tuyến được Google giới thiệu vào tháng 2/2005 và được tích hợp lên iPhone vào năm 2007. Cùng với sự ra mắt của Google Maps, tháng 6/2005, ứng dụng Google Earth, phiên bản vệ tinh bản đồ trái đất cũng được Google trình làng.

Page 11: Bao caogtn

Hình 2.3.8. Google Earth là dịch vụ tra cứu bản đồ hàng đầu hiện nay

Cũng trong năm nay, Google ra mắt công cụ tìm kiếm code.google.com, cho phép các lập trình viên tìm kiếm mã nguồn lập trình ứng dụng khi cần thiết. Ngoài ra, Google cũng đã thâu tóm Urchin, dịch vụ tối ưu dữ liệu mà sau này được Google phát triển thành dịch vụ Google Analytics.

Năm 2006: Thâu tóm Youtube

Với mức giá 1,65 tỷ USD, thương vụ thâu tóm Youtube vào tháng 10/2006 là một trong những thương vụ lớn nhất trong lịch sử Google và cao nhất vào thời điểm bấy giờ. Ngày nay, Youtube đã trở thành dịch vụ xem và chia sẻ video trực tuyến lớn nhất thế giới, với hàng triệu đoạn video được chia sẻ mỗi ngày.

Hình 2.3.9 .Youtube đã nhanh chóng trở thành dịch vụ chia sẻ video hàng đầu thế giới

Cũng trong năm nay, Google cho ra mắt dịch vụ Gchat, dịch vụ chat được tích hợp ngay bên trong hộp thư Gmail.

Page 12: Bao caogtn

Năm 2007: Thâu tóm Android

Tháng 11/2007, Google mua lại công ty Android, mà Google gọi đây là “nền tảng di động mở đầu tiên trên thế giới”. Mặc dù thương vụ mua lại Android không phải là thương vụ “bom tấn” thực sự gây chú ý, tuy nhiên đây lại là một trong những thương vụ thành công nhất của Google.

Hình 2.3.10. Android là một trong các thương vụ thành công nhất của Google

Năm 2008: Trình duyệt web Chrome ra đời

Tháng 9/2008, Google giới thiệu Chrome, trình duyệt web mã nguồn mở của mình và nhanh chóng chiếm được thị phần trên thị trường trình duyệt web. Tốc độ phát triển của Chrome là rất nhanh chóng. Tính đến thời điểm hiện tại, Chrome đã trải qua 13 phiên bản chính thức và phiên bản thử nghiệm thứ 14 cũng vừa được trình làng.

Page 13: Bao caogtn

Hình 2.3.11. Trình duyệt Google Chrome ra mắt và có bước phát triển nhanh chóng

Cũng trong năm nay, hãng viễn thông T-Mobile giới thiệu G1, chiếc điện thoại đầu tiên sử dụng nền tảng Androdi của Google.

Năm 2009: Google Wave - Thất bại của Google

Quá nhiều trông đợi, quá nhiều tính năng được giới thiệu trên nền tảng Wave, Google hy vọng sẽ mạng đến cho người dùng một “phòng làm việc” và 1 mạng xã hội đúng nghĩa. Tuy nhiên, tính năng quá phức tạp và rườm rà, chỉ hơn 1 năm sau, Google đã phải thừa nhận Wave là sự thất bại của mình.

Hình 2.3.12. Đặt quá nhiều kỳ vọng khiến Google Wave nhanh chóng thất bại

Năm 2010: Ra mắt “chợ ứng dụng” Google Apps Marketplace

Google Apps Marketplace là kho ứng dụng được Google mở ra, cho phép các nhà phát triển đăng tải và bán các ứng dụng do mình tạo nên.

Page 14: Bao caogtn

Hình 2.3.13. Google muốn mở rộng kho ứng dụng của mình với Google Apps Marketplace

Cũng trong năm này, Google tiếp tục “tham vọng” mạng xã hội của mình với Google Buzz, mạng xã hội tích hợp bên trong hộp thư Gmail, nhưng một lần nữa thất bại.

Năm 2011: Tiếp tục “giấc mơ” mạng xã hội với Google+

Sau thất bại của Wave và Buzz, dường như Google chưa bao giờ muốn từ bỏ giấc mở xây dựng 1 mạng xã hội của mình. Tháng 6/2011, mạng xã hội Google+, mạng xã hội được Google đầu tư 1 cách mạnh mẽ được chính thức ra đời. Mặc dù chỉ ở giai đoạn thử nghiệm và phải có thư mời mới được phép tham gia, Google+ đã nhanh chóng thu hút được hàng chục triệu người dùng.

Hình 2.3.14. Google+ được đặt nhiều kỳ vọng để trở thành đối thủ của Facebook

Page 15: Bao caogtn

Cũng trong năm này, Google đã tạo nên một “bom tấn” khác với thương vụ thâu tóm bộ phận di động của Motorola với giá 12,5 tỉ USD, thương vụ đắt giá nhất trong lịch sử của Google.

Trải qua 13 năm, Google đã trở thành 1 điều gì đó không thể thiếu với người dùng Internet. Cùng với sự phát triển và sáng tạo của mình, chắc hẳn Google sẽ còn tiếp tục vươn lên những tầm cao mới trong tương lai để tiếp tục là “gã khổng lồ” hàng đầu trong làng công nghệ thế giới.

3.2. Những lần thay đổi giao diện của công cụ tìm kiếm google

1998 - 2001: Tập trung vào tìm kiếm

Trong những năm đầu xuất hiện, Google.com chỉ đơn thuần là một công cụ tìm kiếm với

hình ảnh cực kì mang tính biểu tượng: logo Google nhiều màu sắc, một hộp nhập văn bản

dài nằm giữa màn hình, một nút thực thi việc tìm kiếm và nút còn lại là "I'm feeling

lucky" để dẫn người dùng đến một trang web ngẫu nhiên cũng thuộc Google.

Page 16: Bao caogtn

Hình 2.3.15. Những ngày đầu phát triển

2001 – 2007: Giao diện thẻ

Như tấm ảnh bên trên, bạn có thể thấy rằng trang web Google giờ đây phức tạp hơn một

chút và nó có các thẻ như Web, Images, Groups và Directory. Mỗi một mục như thế nằm

trong một thẻ khác nhau và được bố trí ngay bên trên hộp nhập liệu để việc tìm kiếm của

người dùng được dễ dàng hơn. Trong những năm sau đó vị trí của các tab có thể thay đổi

chỗ này chỗ khác nhưng ban đầu thì tất cả đều nằm bên dưới logo Google.

Page 17: Bao caogtn

Hinh 2.3.16 Giao diện thẻ

2006 - 2007: Giao diện thẻ tiếp tục được mở rộng

Không dừng lại ở trang chủ tìm kiếm, giao diện thẻ của Google bắt đầu được mang sang

Gmail và Calendar với những đường link nằm ở đầu trang web. Bản thân trang chủ của

Google cũng tiếp tục sử dụng phong cách này.

2007 - 2011: Thanh điều hướng xuất hiện

Ngay trong năm 2007, Google bắt đầu cho triển khai thanh điều hướng mới nằm ở cạnh

trên màn hình. Nó bao gồm các đường link dẫn đến nơi tìm kiếm hình ảnh, video, tin tức,

bản đồ cũng như những nút chuyển sang Gmail, Calendar cũng các dịch vụ khác do công

ty phát triển. Logo Google, hộp tìm kiếm, nút Google Search được trả lại đúng với thiết

kế nguyên thủy của chúng, đơn giản nhưng vẫn đảm bảo tính hiệu quả cao.

Page 18: Bao caogtn

Hình 2.3.17 Giao diện thể đầu tiên

2011: Google Menu

Trong nỗ lực dọn dẹp lại thanh điều hướng, Google đã sử dụng một loạt các icon nằm ẩn

trong chữ Google nằm ở góc trên trái của trang tìm kiếm. Chỉ khi nào người dùng nhấn

vào đây thì menu mới sổ xuống nên trang chủ của hãng trông rất gọn gàng và đẹp mắt. Ở

góc trên bên trái thì Google bổ sung thêm một ô hiển thị các thông báo của Google+ và

hình ảnh đại diện cho tài khoản người dùng.

Page 19: Bao caogtn

Hình 2.3.18. Google Menu

Chương III. Cơ chế tìm kiếm của Google

Một sự thật cơ bản đầu tiên cần biết đó là công cụ tìm kiếm của Google  không phải là

con người. Chính vì thế sẽ có sự khác nhau giữa con người và công cụ tìm kiếm trong

việc đánh giá nội dung của một trang web. Không giống như con người, công cụ tìm

kiếm nội dung theo định hướng. Mặc dù công cụ tìm kiếm được trang bị các công nghệ

rất hiện đại tuy nhiên nó vẫn không đủ thông minh để có thể cảm nhận được vẻ đẹp của

một mẫu thiết kế, thưởng thức âm thanh hoặc thấy được chuyển động của một video nào

đó. Vì vậy khi công cụ tìm kiếm thu thập dữ liệu của trang web nó chỉ nhìn vào các văn

bản cụ thể để cố gắng hiểu được trang web này đang muốn nói về vấn đề gì.

Page 20: Bao caogtn

1. Các bộ phận của công cụ tìm kiếm:

1.1 Bộ phận thu thập dữ liệu

Google sử dụng phần mềm có tên “trình thu thập thông tin web” để khám phá các

trang web công khai hiện có. Trình thu thập thông tin nổi tiếng nhất có tên là

“Googlebot” hay “Google spider”. Trình thu thập thông tin xem các trang web và dò theo

liên kết trên các trang đó, giống như khi bạn duyệt nội dung trên web. Chúng đi từ liên

kết này tới liên kết khác và mang dữ liệu về các trang web đó về cho máy chủ của

Google.

Quá trình thu thập thông tin bắt đầu với danh sách các địa chỉ web từ các lần thu

thập thông tin trước đó và sơ đồ trang web do chủ sở hữu trang web cung cấp. Khi các

trình thu thập thông tin của Google truy cập các trang web này, chúng sẽ tìm các liên kết

cho những trang khác để truy cập. Phần mềm đặc biệt chú ý tới các trang web mới, các

thay đổi đối với trang web hiện tại và các liên kết không còn hoạt động.

Các chương trình máy tính xác định những trang web nào cần thu thập thông tin,

tần suất cũng như số lượng trang cần tìm nạp từ mỗi trang web. Google không chấp nhận

khoản thanh toán để thu thập thông tin một trang web thường xuyên hơn cho các kết quả

tìm kiếm trên web của mình. Google quan tâm hơn đến việc có các kết quả tốt nhất có thể

bởi vì về lâu dài, đó là điều tốt nhất cho người dùng và do vậy, cho doanh nghiệp của

Google.

Googlebots có 2 loại : freshbots và deepbots. Mỗi loại có một chức năng khác

nhau:

- Freshbots:

Các spider sẽ đi khắp mạng lưới internet để thu thập những dữ liệu mới. Thông tin

thu thập sẽ được lưu trữ tạm thời trong một database phụ riêng biệt và được cập nhật bất

cứ khi nào spider tìm thấy dữ liệu mới.

- Deepbots:

Page 21: Bao caogtn

Còn gọi là “monthly crawler” , loại spider này sẽ đi đến tất cả những trang nằm

sâu nhất của website để thu thập thông tin bằng cách tìm và đi theo bất cứ liên kết nào có

trong cấu trúc của website. Nó có trách nhiệm truy cập các nội dung ẩn sâu bên trong và

lưu trữ những trang mà nó ghé thăm.

Googlebots cũng như các công cụ thu thập dữ liệu khác, rất nhỏ bé nhưng lại có

tác dụng vô cùng to lớn. Nó đóng vai trò quan trọng trong hệ thống thu thập và lưu trữ

thông tin từ hằng trăm, hàng ngàn website trên thế giới.

1.2 Bộ phận lập chỉ mục (index)

Hệ thống web giống như một thư viện công cộng không ngừng phát triển với hàng

tỷ cuốn sách và không có hệ thống quản lý trung tâm. Google về cơ bản gom góp các

trang web trong quá trình thu thập thông tin, sau đó tạo chỉ mục để biết chính xác cách tra

cứu nội dung. Giống như chỉ mục ở phía sau của một cuốn sách, chỉ mục của Google

cũng bao gồm thông tin về các từ và vị trí của chúng. Khi bạn tìm kiếm, ở mức cơ bản

nhất, các thuật toán của Google sẽ tra cứu những cụm từ tìm kiếm của bạn trong chỉ mục

để tìm các trang phù hợp.

Quy trình tìm kiếm trở nên phức tạp hơn kể từ giai đoạn đó. Khi bạn tìm kiếm từ

“chó” bạn không muốn một trang với từ “chó” xuất hiện hàng trăm lần. Bạn có thể muốn

tìm hình ảnh, video hoặc một danh sách các giống chó. Các hệ thống lập chỉ mục của

Google ghi chú nhiều khía cạnh khác nhau của trang, chẳng hạn như thời gian trang được

xuất bản, liệu trang có chứa hình ảnh và video hay không và nhiều hơn thế. Với Đồ thị tri

thức này, Google tiếp tục đi xa hơn việc kết hợp từ khóa để hiểu rõ hơn về con người, địa

điểm và những thứ mà bạn quan tâm.

Page 22: Bao caogtn

Hình 3.1.1. Google bot đi qua các website và đánh chỉ mục nó

1.3 Bộ phận xử lí– tính toán

Đây là quá trình tính toán của Google nhằm cung cấp các kết quả cho người tìm kiếm.

Theo thống kê, Google sử dụng hơn 200 yếu tố để xếp hạng trang web. Các yếu tố này có

tầm quan trọng khác nhau, tuy nhiên một trong những yếu tố quan trọng nhất để xếp hạng

đó là dựa trên chất lượng nội dung và chất lượng của những liên kết đến trang web của

bạn.

VD:

- Sự mới mẻ của nội dung trong trang web

- Từ ngữ dùng trong trang web

- Từ đồng nghĩa với từ khóa tìm kiếm

- Chất lượng nội dung của trang web

.....

Page 23: Bao caogtn

Các thuật toán xếp hạng của Google

1.3.1 Thuật toán Google Panda (gấu trúc)

Google panda (Gấu Trúc) là một trong nhiều thuật toán của Google nhằm giảm thứ hạng

của những Website kém chất lượng trên kết quả tìm kiếm.

Việc copy bài viết từ các nguồn khác nhau paste về website của mình dẫn đến sự bùng nổ

của các website, làm xao nhãng thông tin, tạo ra vô số các website rác, có mật độ từ khóa

không phù hợp, không liên quan.

Trước thời điểm Google Panda ra đời, các website rác này vẫn có thứ hạng cao hơn

những trang có nội dung gốc vì hệ thống xếp hạng của Google trước đây xếp hạng dựa

trên số lượng bài viết, mật độ từ khóa, số lượng liên kết…Những website rác lấn lướt trên

bảng xếp hạng của  Google khiến người dùng cảm thấy thông tin bị nhiễu khi tìm thấy

quá nhiều trang không hữu ích và thoát ra ngay sau đó.

Vì sao giảm thứ hạng Website kém chất lượng đó là: Nội dung bài viết kém chất lượng

nội dung, nội dung copy, số lượng quảng cáo lớn, link spam quá nhiều, lượng backlink

tăng một cách đột ngột trong khoảng thời gian ngắn, site không có nội dung mới. Những

Website vi phạm bản quyền sẽ bị phạt nặng.

Google Panda sẽ loại bỏ những nội dung rác, nội dung copy, loại bỏ những website có

thương hiệu kém… Đây là bộ lọc quan trọng để cải tiến các kết quả tìm kiếm mới của

Google

Google Panda ra đời để phục vụ người dùng hiệu quả hơn, cung cấp những website có

nội dung chất lượng hơn. 

1.3.2 Thuật toán Google Penguin (chim Cách Cụt)

Google Penguin là thuật toán cập nhật của Google lần đầu tiên được công bố vào ngày 24

tháng 4 năm 2012 . Bản cập nhật là nhằm mục đích giảm thứ hạng các trang web vi phạm

Page 24: Bao caogtn

quy định quản trị website của google - sử dụng các kỹ thuật SEO mũ đen như nhồi nhét

backlink, backlink ẩn ,mua bán backlink, backlink trên nội dung trùng lặp, …

1.3.3 Thuật toán Google Hummingbird (chim Ruồi)

Thuật toán Google Hummingbird được công bố chính thức vào ngày 26/09/2013 là một

trong những thuật toán cực kỳ thông minh và chính xác, có khả năng tìm kiếm bằng

giọng nói của người dùng trên thiết bị di động. 

Hiểu được những câu hỏi dài của người dùng:đọc hiểu, giải đáp được những câu hỏi của

người dùng một cách nhanh chóng thông qua công nghệ Knowledge Graph, thuật toán

mệnh danh là nhanh chóng và chính xác ,Google có thể chọn lọc chính xác và cung cấp

câu trả lời cho người dùng nhanh chóng trong một khoảng thời gian rất ngắn. Người dùng

không cần phải mò từng trang để xem kết quả mà dữ liệu hiện sẵn cho nhìn thấy câu trả

lời rất dể tìm.

Công nghệ tìm kiếm bằng giọng nói: Một đột phá lớn của công nghệ Google. Nắm bắt

được thị trường nhu cầu sử dụng thiết bị di động ngày càng nhiều và lớn, Google đã ứng

dụng tìm kiếm bằng giọng nói trên thiết bị di động.

Nội dung website: đưa ra những yêu cầu cao hơn về mặt nội dung gồm những yếu tố sau:

nội dung tập trung và chuyên sâu và độc đáo về một mảng nào đó, từ khóa trong nội

dung, bình luận trên website…

1.3.4 Thuật toán Google Zebra (ngựa Vằn)

Là một thuật toán của Google nhằm phạt các SEOer có những website đi link spam bừa

bãi vào các mạng xã hội, đặt biệt siết chặt hơn ở mạng xã hội Google Plus.

Thuật toán này nhắm đến:

- Spam liên kết lên comment người khác, Spam lên Group không đúng danh mục.

- Mạo danh tài khoản Google+.

Page 25: Bao caogtn

- Chia sẻ quá nhiều liên kết trên Google+ của bạn.

- Kết bạn bừa bãi.

- Lạm dụng spam Social Bookmarking.

- Con số ngầm: Con số ngầm là điểm chất lượng mà Google+ dành cho bạn.

1.3.5 Thuật toán Google Pigeon (chim Bồ Câu)

Đây là thuật toán nhằm mục đích để sắp xếp chặt chẽ hơn kết quả tìm kiếm theo địa

phương.

Thuật toán Google Piegon (chim bồ câu) sẽ sắp xếp toàn bộ các Website có liên quan đến

địa phương, tìm các từ đồng nghĩa. Hoạt động dựa theo công nghệ Google PigeonRank

(ra đời vào 2012), công nghệ này xử lý theo kết quả tìm kiếm chính xác và nhanh nhất

theo địa điểm.

2. Cơ chế hoạt động của Google Spider ( Googlebot )

Hình 3.2.1 Cơ chế hoạt động của Google Spider

Page 26: Bao caogtn

- Đầu tiên Google Spider sẽ lấy danh sách các máy chủ và trang web phổ biến. Sau đó nó

sẽ bắt đầu tìm kiếm với một site bất kỳ, nó đánh chỉ mục các từ khóa trên trang và theo

các liên kết (link) tìm thấy bên trong trang web này.

- Khi Spider xem xét các trang web (định dạng HTML), nó lưu ý: Các từ bên trong

trang web & nơi nó tìm thấy các từ đó.

Ví dụ: Các từ xuất hiện trong các thẻ tiêu đề, thẻ miêu tả…. nó nhận định đây là phần

quan trọng có liên quan đến sự tìm kiếm của người dùng sau này.

Vì thế đối với mỗi website Google nó sẽ có nhiều phương pháp để index lại chỉ mục, liệt

kê lại các từ khóa chính. Nhưng dù dùng cách nào thì Google cũng luôn cố gắng làm cho

hệ thống tìm kiếm diễn ra nhanh hơn để người dùng có thể tìm kiếm hiệu quả hơn hoặc

cả hai.

- Kế đó Google sẽ xây dựng chỉ mục

Xây dựng chỉ mục sẽ giúp cho các thông tin được tìm thấy một cách nhanh chóng. Sau

khi tìm thông tin trên trang web, Google Spider nhận ra rằng việc tìm kếm thông tin trên

website là một quá trình không bao giờ kết thúc… bởi vì các quản trị trang web luôn thay

đổi thông tin, cập nhật thông tin trên website và điều đó có nghĩa rằng Spider sẽ luôn phải

thực hiện nhiệm vụ thu thập dữ liệu.

Mình có thể lấy ví dụ 1 cách như sau: Giả sử website của bạn làm về ngành du lịch… nó

sẽ lưu các chỉ mục trên website của bạn vào ngành du lịch… Nếu site bạn làm về ca nhạc,

nó sẽ lưu các chỉ mục trên web bạn vào ngành ca nhạc.

Xử lý và tính toán:

- Sau khi lập chỉ mục Google sẽ xử lý, tính toán và mã hóa thông tin để lưu trữ trong cơ

sở dữ liệu.  Và khi có một truy vấn tìm kiếm thì hệ thống sẽ trả về các kết quả có chứa

nội dung hữu ích tương ứng với các truy vấn tìm kiếm của người dùng.

3. Tổng kết về cách tìm kiếm của google

Page 27: Bao caogtn

Khi người sử dụng gõ một từ khóa vào thanh tìm kiếm của Google, việc đầu tiên

Google thực hiện là đảo qua hàng tỷ trang web trong danh mục và cho hiển thị những kết

quả phù hợp với cụm từ tìm kiếm. sau đó Google sẽ sắp xếp chúng sao cho những kết quả

có chất lượng cao nhất sẽ hiển thị ở vị trí đầu tiên của danh sách và những kết quả có chất

lượng thấp nhất ở vị trí cuối cùng.

Việc xếp hạng dựa trên sự kết hợp của nhiều tiêu chí nhưng cơ bản nhất là hai tiêu

chí: Một là sự liên quan và hai là uy tín. 

Sự liên quan là thước đo mức độ phù hợp của trang web với một cụm từ đang được tìm

kiếm. Nó dựa trên các yếu tố như Tiêu đề (đôi khi được gọi là “Tên trang web”), nội

dung, và chuỗi ký tự liên kết (Anchor Text) của đường dẫn đến trang của bạn. 

Còn uy tín của trang web được đo lường bằng mức độ quan trọng và sức ảnh hưởng của

trang web đó dưới quan điểm của Google.

Page 28: Bao caogtn

Hình 3.3.1 Infographic về cách Google tìm kiếm theo từ khóa

Page 29: Bao caogtn

Tài Liệu Tham Khảo

- Google.com.

- sopa.vn, tapchimarketingonline.com.

- vi.wikipedia.org, en.wikipedia.org

- tinhte.vn , vnreview.vn

Bảng phân công công việc:

Tìm hiểu thông tin chung về Google

Tìm hiểu về Google Spider

Tỉm hiểu về bộ phận thu thập dữ liệu

Tìm hiểu về bộ phận lập chỉ mục

Tìm hiểu về bộ phận xử lí tính toán

Tổng hợp và viết báo cáo

Trần Minh Nhật -13520583 (nhóm trưởng)

X X X

Lê Nhật Tánh - 13520756 X

(chặng đường phát

triển)

X

Trần Huỳnh Ngọc Tiên - 14520946

X

(lịch sử google)

X

Lê Quang Phú -14520680 X X X

Đinh Ngọc Tuấn -14521040

X

(chặng đường phát

triển)

X