(Chuyên gia) Thống kê thú vị về tên miền

(Chuyên gia) Thống kê thú vị về tên miền

thống kê tên miền .com và .net

Ngày nay có vẻ như mọi doanh nghiệp, tổ chức và nhóm đều có website đại diện. Chúng ta truy cập những trang web này không phải thông qua địa chỉ IP (cái mà máy tính sẽ dùng) mà thông qua tên thân thiện và dễ nhớ với con người. Các dịch vụ sẽ chuyển dịch Tên Miền thành địa chỉ IP cho máy tính.

Tên miền

Ngày nay, Google.com, Microsoft.com và Amazon.com là những tên miền rất phổ biến. Đuôi của chúng là các ví dụ về TLDs (Tên miền cấp cao nhất). Mỗi tên miền là khác nhau, và tạo thành từ các chữ cái từ A đến Z (không phân biệt chữ hoa, chữ thường), các số từ 0 đến 9, ký tự gạch ngang “–” (gạch nối) và dấu chấm “.” (Tuy nhiên tên miền không được bắt đầu hoặc kết thúc bằng dấu gạch ngang hoặc dấu chấm).

Chỉ có một số lượng có hạn các cách khác nhau mà những ký tự trên có thể kết hợp để tạo thành tên miền (và thậm chí ít hơn nữa nếu tính đến các dạng từ và cụm từ dễ nhớ). Để hỗ trợ trong vấn đề này (và cũng để đưa ra một số dấu hiệu về các kiểu dịch vụ mà các trang web phục vụ), các đuôi tên miền được thêm vào cho mỗi tên miền cấp cao nhất nhằm phân loại chúng. Đuôi tên miền phổ biến nhất cho đến thời điểm này là .com (dự định ban đầu để biểu thị cho kinh doanh thương mại). Các đuôi tên miền phổ biến khác là .net, .gov, .org, .edu cũng như toàn bộ các tên miền quốc gia cấp cao nhất như .co.uk và .co.jp

Mặc dù cân bằng có thể chuyển dịch trong tương lai với sự mở rộng của các tên miền cấp cao nhất dùng chung mới (gTLDs), và các đuôi mới tương ứng của chúng, nhưng đuôi tên miền .com sẽ vẫn thống trị thế giới tên miền.

.COM và .NET

Ở thời điểm của bài viết này, theo như Verisign có 102,815,927 tên miền đã đăng ký dưới đuôi .com, và 14,967,256 dưới đuôi .net

Tên miền được đăng ký không có nghĩa là nó đang được sử dụng, nó chỉ có nghĩa là ai đó đã đặt trước một tên miền để có thể sử dụng ngay trong lúc này hoặc ở thì tương lai.

Sự thống trị của tên miền .com có thể thấy từ sơ đồ hình Venn ngay bên dưới đây với sự so sánh chồng chéo của hai không gian tên miền.sự chồng lấn của các tên miền .com và .net

Sơ đồ cho thấy rằng, với mỗi đuôi tên miền khác nhau, có các tên miền chỉ được đăng ký dưới dạng .com, hay chỉ được đăng ký dưới dạng .net hoặc cả hai đuôi.

Lưu ý:

Chỉ vì tên miền được đăng ký trong cả hai đuôi không có nghĩa là các đăng ký đó cùng thuộc về một công ty! Chỉ đôi khi mới như vậy, và thường là với các công ty tích cực đặt mua tên miền khớp với thương hiệu của họ trong các đuôi khác nhau để ngăn chặn sự nhầm lẫn và không cho người khác sở hữu. Nói chung, dù sao, tên với các đuôi khác nhau thuộc về các tổ chức khác nhau, đôi khi hợp pháp, đôi khi có ý định không rõ ràng.

Thật may mắn, các đăng ký gây hiểu nhầm không tạo ra được nhiều nguy hại bởi vì mọi người ngày càng dựa vào máy tìm kiếm để làm rõ mục tiêu yêu cầu của họ. Ngày nay, thường thì người dùng sẽ gõ trực tiếp điều họ muốn tìm kiếm vào ô tìm kiếm (thậm chí là thanh địa chỉ trình duyệt) và không gõ dạng đầy đủ http: địa chỉ trang web mong muốn của họ. Các trang web hợp pháp có xếp hạng thứ hạng trang vượt trội, và vì vậy có thứ hạng cao hơn trong kết quả của máy tìm kiếm.

Từ sơ đồ bên trên, chúng ta có thể thấy ưu thế của không gian tên miền .com; Trong 102,8 triệu tên miền đuôi .com chỉ có 12,54% cũng được đăng ký dưới dạng .net; Phần lớn những chủ sở hữu tên miền .com không nghĩ đuôi .net đáng để mua thêm.

Trái lại với quan điểm đó, trong 15 triệu tên miền .net có đến 86,13% cũng được đăng ký dưới đuôi .com rồi.

Bởi vì .com giờ đã trở thành một phần quen thuộc trong ngôn ngữ của chúng ta, người dùng internet đã rất quen thuộc với nó. Khi có ý định hình thành doanh nghiệp mới, có khả năng bạn sẽ tìm được tên miền thích hợp trong không gian .net, nhưng trong những ngày này tại sao phải bận tậm? Trừ lý do duy nhất là bạn không thể tìm được tên miền tự do trong không gian .com, cái mà bất cứ ai có lẽ cũng muốn mua đầu tiên. Có cách tốt hơn, đơn giản là nghiên cứu lại/brainstorm thêm nữa và tìm một tên bạn có thể mua trong không gian .com và tránh được việc khách hàng nhầm lẫn hoặc phải giáo dục lại khách hàng.

Phân bố chiều dài tên miền

Có được dữ liệu tên miền, tôi quyết định thực hiện một số phân tích dựa trên dữ liệu .com và .net

chiều dài tên miền .com

Ảnh phía trên là phân phối độ dài của tất cả các tên miền .com đã đăng ký.

Độ dài tên miền phổ biến nhất là 12 ký tự, và chiều dài trung bình là 13,539 ký tự. Độ dài trung vị cũng là 12 ký tự (có nghĩa là số lượng tên miền có nhiều hơn 12 ký tự cũng tương đương với số lượng tên miền có ít hơn 12 ký tự).

Bên dưới là biểu đồ tương tự cho tất cả tên miền .net đã được đăng ký.

độ dài tên miền .net

Độ dài trung bình của tên miền .net ngắn hơn một chút.

.COM .NET
Độ dài trung bình 13,539 12,394
Độ dài trung vị 12 11
Độ dài phổ biến nhất 12 10
Có một số tên miền khá dài, chúng tôi lựa chọn ngẫu nhiên vài cái tên có độ dài 63 ký tự:
  • ALTERNATIVE-RENEWABLE-ENERGY-STOCKS-INVESTMENT-WIND-SOLAR-POWER.COM
  • AXIALCENTRIFUGALRADIALINDUSTRIALMULTIVANEFANSVENTILATORSBLOWERS.COM
  • ASOCIACIONDEGUIASINTERPRETESDELPATRONATODELAALHAMBRAYGENERALIFE.COM
  • CARPET-CLEANING-ORANGE-COUNTYRUGSMATTRESSSTEAMUPHOLSTERYODORPET.COM

Hãy tưởng tượng những chủ sở hữu tên miền này đánh vần nó cho khách hàng tiềm năng qua điện thoại sẽ thế nào.

Tình trạng bão hòa

Chỉ có một số giới hạn các kết hợp những ký tự được cho phép để tạo thành tên miền. Tất cả các tên miền 2 ký tự của .com và .net đã được đăng ký. Khi xem xét tên miền 3 ký tự, một lần nữa chúng tôi nhận thấy không gian địa chỉ đã bão hòa, với >96% tất cả các kết hợp đã được đăng ký hết. (Nói chung, các tên miền ngắn thường tốt hơn ở khía cạnh dễ nhớ, dễ gõ hơn và thường là tên viết tắt của các công ty, tổ chức).

Khi chuyển sang tên miền 4 ký tự, mọi thứ vẫn rất tắc nghẽn với 43% tất cả các kết hợp đã bị đăng ký với không gian .com. Mọi thứ giảm bớt hơn với không gian .net với 17% tất cả các kết hợp đã bị đăng ký.

Tiếp đến khi chúng tôi chuyển sang tên miền 5 ký tự, các kết hợp trở nên nhiều hơn hẳn, vì mỗi một ký tự tăng thêm trong tên miền, số lượng tên miền có thể được nhân lên 38 lần so với độ dài trước đó. Với tên miền 5 ký tự, có 3,4% tên miền .com đã được đăng ký. (Vì số lượng ký tự là 5, nó có thể tạo thành một số tên miền khá xấu xí, như có các ký tự lặp lại và dấu gạch ngang). Tình trạng bão hòa giảm xuống còn dưới 1% cho tên miền 5 ký tự trong không gian .net

Khi số lượng ký tự tăng lên là 6 hoặc nhiều hơn nữa, không gian tên miền trở nên dễ thở hơn nhiều và bão hòa không còn là vấn đề nữa. Lúc này vấn đề quan trọng hơn là tìm được tên miền dễ nhớ, đầy đủ ý nghĩa và đẹp (chứ không phải là các ký tự ngẫu nhiên hoặc sự lặp lại các ký tự không đẹp mắt).

Tên miền đối xứng

Tính trên toàn bộ không gian tên miền .com, hiện có 26,169 tên miền đối xứng (đọc ngược hay xuôi đều giống nhau), có 9,403 tên miền như vậy trong không gian .net

Dưới đây là một số lựa chọn ngẫu nhiên từ không gian tên miền .com:
  • A————————————————————-A.COM
  • ZYXWVUTSRQPONMLKJIHGFEDCBABCDEFGHIJKLMNOPQRSTUVWXYZ.COM
  • SATOR-AREPO-TENET-OPERA-ROTAS.COM
  • LOLOLOLOLOLOLOLOLOLOLOLOLOLOL.COM
  • REFLECTION–NOITCELFER.COM
  • WONTLOVERSREVOLTNOW.COM
  • SLATEMETALS.COM

Số và từ nối

Có hơn 9% tên miền .com bao gồm ít nhất một ký tự chỉ đến con số, với tên miền .net tên miền có số là trên 10%

Bởi vì tên miền dưới dạng các từ đơn trong từ điển và tên riêng hầu như đã bị đăng ký hết, nên rất nhiều tên miền được tạo nên bằng cách nối các từ với nhau. Bởi vì dấu cách không hợp lệ trong tên miền, người đăng ký có một lựa chọn đơn giản là nối các từ với nhau, thí dụ như tên miền của tôi là DucAnhPlus.com (bạn cũng cần biết rằng tên miền không phân biệt chữ hoa với chữ thường, vì thế ở một số trường hợp cần thiết có thể sử dụng từ viết hoa để đại diện cho việc bắt đầu một từ mới). Ngoài ra, mọi người có thể chọn sử dụng gạch nối – để bẻ các từ ra, ví dụ như rat-bikes.com

Trong lựa chọn của cá nhân tôi, bất kỳ tên miền nào sử dụng dấu gạch ngang là chưa tối ưu. Người dùng thường không nhớ bạn có sử dụng gạch nối hay không (họ có thể kết thúc với đối thủ cạnh tranh của bạn nếu họ quên dấu gạch ngang?). Ngoài ra, một số người dùng có thể lúng túng không biết cách sử dụng bàn phím để nhập dấu gạch nối (liệu nó có phải là dấu gạch dưới hay không?). Cũng rất khó để giải thích qua điện thoại; bạn sẽ gọi nó là “dấu gạch ngang”, hoặc “gạch nối”, “dấu gạch”, “dấu nối” khi đánh vần URL. Cuối cùng, với nhiều người sử dụng thiết bị di động, gõ ký tự này có thể yêu cầu phải nhấn đúp phím shifts.

Có hơn 12 triệu tên miền đã đăng ký có sử dụng gạch nối (đại diện cho khoảng 11,8% trên tổng số). Nhiều tên miền trong số này tôi nghi ngờ là kiểu mua phòng thủ, và trong nghiên cứu cho bài đăng này, nhiều URL tôi nhập vào có gạch nối đơn giản là đã chuyển người dùng đến một tên miền mới thích hợp hơn (redirect). Trong không gian .net, tỷ lệ cao hơn với 13,1% tên miền có gạch nối.

Tần số

Không phải tất cả các ký tự được sử dụng ngang nhau trong tên miền. Có tổng cộng 1,392,049,701 ký tự được sử dụng để đại diện cho 102,815,927 tên miền .com

Dưới đây là bảng phân phối tương đối:

Thứ tự Ký tự Tần suất
#1 E 141,646,533
#2 A 123,868,625
#3 I 100,401,072
#4 O 96,790,706
#5 S 96,189,067
#6 R 94,784,191
#7 N 93,320,130
#8 T 88,697,233
#9 L 69,479,211
#10 C 57,324,556
#11 D 43,903,797
#12 M 41,929,347
#13 U 41,562,591
#14 H 38,309,479
#15 P 35,773,302
#16 G 35,272,868
#17 B 28,121,111
#18 Y 25,037,505
#19 F 21,407,914
#20 K 19,964,847
#21 W 17,464,287
#22 V 16,644,742
#23 16,236,169
#24 X 7,320,389
#25 J 7,264,260
#26 Z 6,583,320
#27 1 3,957,814
#28 2 3,557,306
#29 Q 2,975,019
#30 0 2,913,777
#31 4 2,065,220
#32 3 1,936,546
#33 . 1,935,919
#34 8 1,794,959
#35 5 1,564,812
#36 6 1,393,887
#37 9 1,382,868
#38 7 1,274,322

Điều thú vị cần lưu ý là phân phối này khác với mẫu truyền thống được sử dụng trong tiếng Anh: E, T, A, I, O, N, S, H, R, D, L…

Cái này có thể được giải thích rằng trong thực tế các tên miền không chỉ được sử dụng cho người tiêu dùng nói tiếng Anh. Mặc dù các quốc gia khác nhau có đuôi tên miền của riêng họ, kể từ khi .com trở thành lingua franca (ngôn ngữ cầu nối, giống kiểu từ OK, được hiểu gần giống nhau tại hầu hết mọi nơi trên thế giới), nhiều doanh nghiệp đơn giản mặc định sử dụng .com luôn.

Ký tự có mức độ phổ biến thấp nhất là Q, thậm chí ký tự số 1 và 2 còn xuất hiện với tần suất cao hơn so với nó. Ký tự số có mức độ phổ biến thấp nhất trong không gian tên miền .com là số 7.

Các nhóm 2 từ, 3 từ, 4 từ, (và bất cứ điều gì mà họ gọi là 5 từ!)

Một số cặp ký tự xuất hiện với tấn số thường xuyên hơn so với những cái khác. Tìm kiếm thông qua không gian tên miền .com, có thể xác định rằng cặp ký tự IN xuất hiện với tần số cao hơn so với bất kỳ các cặp ký tự nào khác (với tần số lặp lại là 23,193,376 lần). Dưới đây là top 120 cặp ký tự:

#1 IN 23,193,376
#2 ER 22,045,322
#3 AN 18,633,554
#4 ES 16,983,404
#5 ON 16,271,855
#6 RE 16,070,874
#7 AR 15,082,764
#8 AL 13,773,410
#9 ST 13,516,029
#10 EN 13,434,330
#11 TE 13,232,970
#12 OR 13,137,866
#13 TI 11,630,714
#14 LE 11,455,196
#15 RA 11,447,567
#16 NE 10,731,677
#17 NG 10,589,719
#18 AT 10,325,754
#19 NT 10,201,868
#20 RI 9,864,274
#21 LI 9,653,122
#22 CO 9,325,669
#23 LA 9,300,814
#24 MA 9,149,085
#25 TO 9,143,487
#26 EA 8,916,932
#27 EL 8,844,154
#28 DE 8,781,881
#29 RO 8,764,327
#30 NS 8,737,029
#31 IC 8,699,288
#32 TA 8,437,680
#33 CA 8,421,233
#34 ME 8,282,189
#35 CH 8,181,017
#36 AS 8,047,599
#37 HO 7,954,085
#38 ND 7,924,789
#39 HE 7,833,639
#40 IT 7,746,934
#41 SE 7,715,012
#42 ET 7,542,073
#43 IS 7,387,741
#44 TH 7,376,080
#45 IO 6,808,156
#46 LL 6,803,100
#47 SI 6,783,264
#48 OU 6,761,302
#49 UR 6,534,693
#50 LO 6,499,349
#51 TR 6,448,385
#52 NA 6,401,442
#53 RT 6,391,591
#54 EC 6,387,507
#55 CE 6,288,226
#56 DI 6,238,405
#57 VE 6,235,411
#58 IL 6,159,701
#59 AC 6,109,501
#60 OL 5,999,110
#61 RS 5,962,453
#62 AM 5,867,200
#63 IA 5,846,628
#64 SA 5,801,203
#65 HA 5,732,145
#66 ED 5,711,386
#67 OM 5,701,672
#68 NI 5,370,265
#69 PA 5,283,311
#70 SH 5,249,674
#71 GE 5,190,053
#72 SO 5,108,273
#73 IE 5,050,900
#74 US 5,030,948
#75 AD 4,938,913
#76 TS 4,910,822
#77 SS 4,906,823
#78 VI 4,906,818
#79 AI 4,875,583
#80 OT 4,869,671
#81 NC 4,825,712
#82 MO 4,760,025
#83 HI 4,749,105
#84 OS 4,711,684
#85 DA 4,603,390
#86 PE 4,532,226
#87 BA 4,513,833
#88 EE 4,456,735
#89 PR 4,437,297
#90 OO 4,425,562
#91 MI 4,418,683
#92 EM 4,391,197
#93 UN 4,286,124
#94 BE 4,271,960
#95 IR 4,099,976
#96 KE 3,996,087
#97 PO 3,945,584
#98 AP 3,808,451
#99 UT 3,798,122
#100 GA 3,796,346
#101 AG 3,780,466
#102 SC 3,645,046
#103 ID 3,630,847
#104 DO 3,592,374
#105 IG 3,582,602
#106 NO 3,550,662
#107 CT 3,529,155
#108 WE 3,505,427
#109 OP 3,489,397
#110 GR 3,436,742
#111 BO 3,432,061
#112 FI 3,393,118
#113 SU 3,377,709
#114 CK 3,325,733
#115 FO 3,316,860
#116 CI 3,289,758
#117 SP 3,262,011
#118 OD 3,147,594
#119 TU 3,075,995
#120 EB 3,002,441

Chuyển sang từ dạng 3 ký tự, chúng tôi nhận thấy tần số cao nhất thuộc về ING với số lần tìm thấy là 7,402,227 lần. Một điểm thú vị cần lưu ý là mặc dù THE và AND có xếp hạng cao trong danh sách, nó vẫn không đánh bại được ING (phổ biến cho dạng động từ -ing trong tiếng Anh).

Vì tôi biết một số bạn sẽ tò mò, chuỗi SEX xuất hiện theo thứ tự ở vị trí #830 với 339,802 lần trong tên miền .com

#1 ING 7,402,227
#2 ION 4,822,392
#3 ENT 4,451,444
#4 TER 3,967,305
#5 AND 3,942,141
#6 THE 3,550,009
#7 TIO 3,537,762
#8 ERS 3,457,584
#9 INE 3,294,442
#10 EST 3,250,273
#11 LIN 2,903,029
#12 ATI 2,759,932
#13 ONS 2,654,525
#14 ATE 2,430,697
#15 TIN 2,397,200
#16 TOR 2,393,355
#17 ART 2,353,882
#18 RES 2,343,289
#19 TRA 2,332,510
#20 STA 2,284,291
#21 PRO 2,123,707
#22 REA 2,105,693
#23 RAN 2,092,965
#24 CON 2,082,868
#25 ALL 2,070,656
#26 ORT 2,059,681
#27 ESS 2,025,271
#28 NTE 2,012,337
#29 LAN 2,004,800
#30 FOR 1,991,104
#31 STE 1,941,777
#32 CAR 1,938,491
#33 MAR 1,935,419
#34 LES 1,925,969
#35 STO 1,923,055
#36 VER 1,886,713
#37 ANC 1,883,790
#38 ALE 1,818,891
#39 IST 1,802,642
#40 INT 1,801,195
#41 OME 1,794,527
#42 ANT 1,775,946
#43 PER 1,757,252
#44 AGE 1,747,623
#45 ILL 1,738,483
#46 EAL 1,730,384
#47 MEN 1,686,776
#48 NCE 1,679,483
#49 ERI 1,672,661
#50 ICA 1,672,360
#51 ELL 1,650,992
#52 ARE 1,648,406
#53 REE 1,630,078
#54 LLE 1,611,347
#55 TAL 1,610,718
#56 OUR 1,589,818
#57 ONE 1,586,445
#58 ICE 1,578,147
#59 MAN 1,562,247
#60 STR 1,558,690
#61 COM 1,557,329
#62 NES 1,556,766
#63 SIN 1,534,106
#64 ORE 1,511,463
#65 SHO 1,508,233
#66 CHE 1,506,047
#67 IVE 1,498,635
#68 SER 1,485,235
#69 AIN 1,470,391
#70 CHA 1,466,781
#71 STI 1,450,094
#72 ECT 1,439,995
#73 IDE 1,437,605
#74 RIN 1,436,529
#75 AST 1,431,439
#76 POR 1,430,462
#77 CHI 1,421,418
#78 HER 1,421,325
#79 DER 1,412,386
#80 ITE 1,395,460
#81 ARD 1,393,607
#82 PAR 1,391,007
#83 DES 1,381,508
#84 SON 1,381,487
#85 INS 1,366,380
#86 NER 1,361,337
#87 EDI 1,360,163
#88 ERT 1,355,165
#89 INA 1,331,050
#90 NTA 1,325,359
#91 ANG 1,323,553
#92 HOT 1,322,784
#93 IAN 1,321,398
#94 RIC 1,317,343
#95 TON 1,313,181
#96 IND 1,301,584
#97 REN 1,280,235
#98 ESI 1,278,969
#99 HOM 1,278,689
#100 ANA 1,273,481
#101 EAR 1,268,724
#102 WOR 1,261,552
#103 HEA 1,253,535
#104 ECO 1,250,956
#105 AME 1,238,717
#106 GRA 1,233,766
#107 IES 1,216,401
#108 TIC 1,211,928
#109 CTI 1,208,389
#110 ARI 1,202,371
#111 URE 1,201,484
#112 MER 1,197,687
#113 ERA 1,193,752
#114 ELE 1,189,551
#115 HIN 1,187,544
#116 ASS 1,186,078
#117 ERE 1,184,471
#118 NLI 1,184,337
#119 ALI 1,183,155
#120 TUR 1,182,331

Dưới đây là bảng cho các cụm từ có 4 ký tự. Giờ đây chúng ta có thể bắt đầu nhìn thấy chuỗi con của các từ rất phổ biến. Tôi hơi bất ngờ vì FREE chỉ đứng ở vị trí thứ 69, nhưng nó vẫn ấn tượng khi có tới hơn 500 ngàn tên miền chứa chuỗi FREE (một chút lưu ý nâng cao cho những ai là fan hâm mộ cho các cụm từ phổ biến – số liệu trong các bảng này thể hiển tần số khớp chính xác của những chuỗi này, không phải là số lượng tên miền có chứa chuỗi. Lấy ví dụ, số lượng tên miền chứa từ FREE là 525,448 tên miền trong khi bảng cho thấy tần số của nó là 527,809. Tại sao có sự khác biệt này? Đơn giản vì một số tên miền có chứa nhiều hơn một từ FREE!)

#1 TION 3,488,333
#2 ATIO 1,757,364
#3 TING 1,574,233
#4 IONS 1,335,966
#5 LINE 1,281,210
#6 NTER 1,271,171
#7 MENT 1,248,400
#8 HOME 1,142,975
#9 PORT 1,078,931
#10 ANCE 1,039,416
#11 NLIN 1,006,019
#12 ONLI 1,001,340
#13 SERV 969,629
#14 LAND 930,140
#15 INGS 912,074
#16 SIGN 893,141
#17 XN– 853,718
#18 INTE 825,806
#19 ERVI 822,265
#20 CTIO 807,484
#21 IGHT 799,786
#22 DESI 798,598
#23 ESIG 774,347
#24 VICE 751,564
#25 STOR 750,355
#26 STER 725,532
#27 DING 724,758
#28 MEDI 720,883
#29 RVIC 720,437
#30 NS1. 717,066
#31 ESTA 716,667
#32 REAL 711,143
#33 EALT 710,484
#34 CONS 709,192
#35 SHOP 708,987
#36 NS2. 699,106
#37 CENT 698,522
#38 ENTE 685,673
#39 INES 677,334
#40 COMP 660,084
#41 NING 650,625
#42 GROU 650,314
#43 MARK 647,324
#44 TURE 642,651
#45 PHOT 633,798
#46 NESS 632,291
#47 HOTO 630,338
#48 TECH 626,769
#49 THER 626,745
#50 WORK 622,839
#51 OUNT 595,546
#52 RANC 595,149
#53 LING 594,830
#54 ALES 592,989
#55 ROUP 589,783
#56 STAT 587,880
#57 ENTA 582,465
#58 SION 581,508
#59 TERS 579,542
#60 PART 573,153
#61 RING 559,112
#62 SALE 557,777
#63 STIN 557,588
#64 ENTS 551,485
#65 HOUS 548,517
#66 KING 542,883
#67 COUN 529,230
#68 ONAL 527,809
#69 FREE 527,595
#70 ARKE 526,117
#71 REAT 525,958
#72 IONA 521,854
#73 AUTO 519,532
#74 ICES 509,800
#75 CTOR 502,528
#76 ALTH 502,227
#77 YOUR 498,557
#78 CIAL 498,392
#79 OMES 498,037
#80 TORE 491,740
#81 HING 487,146
#82 OGRA 485,742
#83 TATE 483,941
#84 TIVE 481,271
#85 OUSE 481,241
#86 URAN 480,572
#87 OTEL 478,484
#88 CHIN 476,787
#89 UTIO 475,655
#90 SPOR 475,653
#91 ITAL 473,510
#92 BOOK 472,095
#93 CARE 472,038
#94 HEAL 471,643
#95 ATER 470,263
#96 BEST 470,175
#97 RKET 469,833
#98 GRAP 469,391
#99 SAND 467,903
#100 STUD 467,322
#101 RAPH 465,722
#102 OLUT 465,431
#103 TERN 463,946
#104 ALLE 463,517
#105 DENT 463,392
#106 EDIA 461,549
#107 EMEN 460,022
#108 RICA 457,796
#109 RENT 456,295
#110 RESS 455,265
#111 LIFE 453,744
#112 NDER 451,107
#113 ICAL 449,954
#114 GREE 449,776
#115 LUTI 449,660
#116 ILLE 448,233
#117 REEN 447,048
#118 VERS 447,032
#119 PRES 445,529
#120 VENT 442,102

Và cuối cùng là bảng gồm top 120 mẫu 5 ký tự. Ở đây các từ đã trở nên rõ ràng hơn. Nhìn vào danh sách này sẽ là bài tập khá thú vị để đoán xem tên miền gốc chứa những ký tự này là gì.

#1 ATION 1,735,530
#2 TIONS 1,134,141
#3 NLINE 984,560
#4 ONLIN 971,756
#5 CTION 805,503
#6 ESIGN 767,702
#7 SERVI 759,486
#8 DESIG 757,231
#9 ERVIC 718,419
#10 RVICE 694,050
#11 PHOTO 624,232
#12 INTER 619,105
#13 GROUP 586,612
#14 ENTER 535,085
#15 EALTH 478,542
#16 MARKE 477,951
#17 UTION 474,667
#18 ARKET 465,762
#19 COUNT 464,850
#20 STATE 462,895
#21 HOMES 461,746
#22 GRAPH 453,391
#23 SPORT 452,938
#24 LUTIO 445,856
#25 OLUTI 442,088
#26 HOUSE 439,230
#27 HOTEL 430,347
#28 SOLUT 421,275
#29 WORLD 419,720
#30 EMENT 417,623
#31 UCTIO 413,506
#32 STORE 406,636
#33 HEALT 404,053
#34 ENTAL 402,259
#35 RANCE 400,607
#36 MEDIA 396,040
#37 VICES 391,582
#38 CONSU 382,581
#39 IONAL 381,293
#40 ESTAT 375,826
#41 STUDI 371,288
#42 PRODU 370,826
#43 MUSIC 367,149
#44 GREEN 364,664
#45 RODUC 360,858
#46 OGRAP 357,465
#47 TUDIO 357,402
#48 ONSUL 356,447
#49 TIONA 352,751
#50 NSULT 351,168
#51 CATIO 348,964
#52 TOGRA 348,431
#53 CENTE 340,501
#54 USINE 339,681
#55 INESS 339,027
#56 OTOGR 338,962
#57 ODUCT 333,345
#58 SINES 331,515
#59 MOBIL 330,525
#60 TRAVE 327,196
#61 NATIO 326,712
#62 HOTOG 326,706
#63 RAVEL 323,398
#64 BUSIN 321,811
#65 ETING 321,577
#66 NTERN 318,557
#67 COMPA 311,167
#68 INSUR 308,468
#69 URANC 305,892
#70 PORTS 305,602
#71 SURAN 303,164
#72 STING 300,157
#73 RAPHY 288,645
#74 ALEST 287,773
#75 ELECT 286,249
#76 LESTA 283,264
#77 NSURA 283,217
#78 LIGHT 283,044
#79 AMERI 282,633
#80 MENTS 281,103
#81 ERICA 280,697
#82 TWORK 278,375
#83 KETIN 277,880
#84 RKETI 277,557
#85 REALE 274,945
#86 MERIC 274,523
#87 ROPER 273,980
#88 PROPE 273,710
#89 PRESS 272,991
#90 EALES 270,742
#91 CREAT 270,015
#92 SYSTE 269,157
#93 SCHOO 268,952
#94 DIREC 267,861
#95 YSTEM 266,582
#96 IRECT 266,558
#97 OPERT 266,462
#98 CHOOL 265,840
#99 SOCIA 265,413
#100 VILLE 259,832
#101 VIDEO 259,764
#102 TMENT 251,356
#103 ECTIO 248,383
#104 CHRIS 245,314
#105 FAMIL 244,913
#106 ETWOR 244,643
#107 GUIDE 244,638
#108 OMPAN 243,981
#109 TRANS 243,471
#110 NETWO 241,831
#111 SIGNS 239,523
#112 REATI 235,494
#113 CLEAN 235,330
#114 RENTA 234,122
#115 CENTR 233,177
#116 MEDIC 233,069
#117 EARCH 231,572
#118 WATER 229,956
#119 LECTR 229,101
#120 SSION 227,410

OK, bảng đã đủ rồi, quay lại biểu đồ thôi

Chúng ta đã biết ký tự phổ biến nhất trong tên miền là từ nào rồi, nhưng ký tự nào là ký tự bắt đầu phổ biến nhất cho tên miền? Chúng tôi đã thực hiện nhanh một truy vấn để tìm ra điều này:

ký tự bắt đầu phổ biến nhất

Số bắt đầu phổ biến nhất là số 1, nhưng tên miền bắt đầu với số ít hơn nhiều so với tên miền bắt đầu với ký tự. Mặc dù thứ tự tần số của các ký tự lần lượt là E, A, I, ký tự bắt đầu phổ biến nhất cho tên miền là ký tự S, tiếp theo sau đó là ký tự C và M. Ký tự bắt đầu ít phổ biến nhất là ký tự Q.

Ký tự kết thúc

Cùng kiểu thống kê nhưng lần này là cho ký tự kết thúc. Lưu ý là hai biểu đồ có tỷ lệ khác nhau. Một lần nữa S là ký tự kết thúc phổ biến nhất, nhưng với tần suất gấp đôi. (Tôi đoán rằng có rất nhiều tên miền được viết dưới dạng số nhiều).

ký tự kết thúc trong tên miền

Ngay sau S, ký tự kết thúc phổ biến tiếp theo là ký tự E và T

Biểu đồ hỗn hợp

Bên dưới là biểu đồ hỗn hợp cho thấy tần suất của ký tự bắt đầu và kết thúc trong cùng một thang đo:

ký tự bắt đầu và kết thúc trong cùng một thang đo

Y không phải là ký tự bắt đầu phổ biến nhưng nó lại là ký tự kết thúc phổ biến. Ngược lại B, F, J và V xuất hiện khá thường xuyên ở vị trí đầu nhưng không nhiều ở vị trí cuối. Điều này có lẽ không phải là ngạc nhiên với những ai biết về tiếng Anh.

Tương quan chéo

Thế về tương quan chéo thì sao? Có mối tương quan tương đối nào giữa ký tự kết thúc so với ký tự bắt đầu? Biểu đồ nhiệt bên dưới đây cho thấy dữ liệu đó. Màu càng sáng, mối tương quan càng mạnh. Trục tung trên biểu đồ là cho ký tự bắt đầu, trục hoành trên biểu đồ là cho ký tự kết thúc.

tương quan giưa ký tự bắt đầu và kết thúc trong tên miền

Ô vuông sáng nhất trên biểu đồ là S%S, chúng xuất hiện đến 1,869,669 lần; sự kết hợp phổ biến nhất của ký tự đầu và ký tự cuối.

Với những ai không quen thuộc với SQL thì ký tự % biểu thị cho bất kỳ ký tự nào. Tôi sử dụng thang đo logarit để tạo thành bảng màu trên.

Tên miền đa ngữ

Là các tên miền có chứa các ký tự bản địa không có trong bảng chữ cái Latin. Các tên miền như vậy nằm ngoài phạm vi của bài viết này.

(Dịch từ bài viết Domain Name Analysis – website: DataGentics)

Related Post

Leave a Reply

Your email address will not be published. Required fields are marked *

ten + five =