兩種JAVA實現(xiàn)短網(wǎng)址服務(wù)算法
短網(wǎng)址(Short URL) ,顧名思義就是看起來很短的網(wǎng)址。自從twitter推出短網(wǎng)址服務(wù)以后,各大互聯(lián)網(wǎng)公司都推出了自己的短網(wǎng)址服務(wù)。短網(wǎng)址最大的優(yōu)點就是短,字符少,便于發(fā)布、傳播、復制和存儲。
通過網(wǎng)上的搜索,感覺流傳了2種短網(wǎng)址算法,一種是基于MD5碼的,一種是基于自增序列的。
1、基于MD5碼 : 這種算法計算的短網(wǎng)址長度一般是5位或者6位,計算過程中可能出現(xiàn)碰撞(概率很小),可表達的url數(shù)量為62
的5次方或6次方。感覺google(http://goo.gl),微博用的是類似這種的算法(猜的),可能看起來比較美觀。
2、基于自增序列 : 這種算法實現(xiàn)比較簡單,碰撞的可能性為0,可表達的URL可達無窮大,長度從1開始。貌似百度的短網(wǎng)址服務(wù)( http://dwz.cn/ )是這種算法.
具體算法
1、MD5碼:假設(shè)url的長度為N
a.計算長地址的MD5碼,將32位的MD碼分成4段,每段8個字符
b.將a得到的8個字符串看成一個16進制的數(shù),與N * 6個1表示的二進制數(shù)進行&操作
得到一個N * 6長的二進制數(shù)
c.將b得到的數(shù)分成N段,每段6位,然后將這N個6位數(shù)分別與61進行&操作,將得到的
數(shù)作為INDEX去字母表取相應(yīng)的字母或數(shù)字,拼接就是一個長度為N的短網(wǎng)址。
static final char[] DIGITS = { '0', '1', '2', '3', '4', '5', '6', '7', '8', '9', 'a', 'b', 'c', 'd', 'e', 'f', 'g', 'h', 'i', 'j', 'k', 'l', 'm', 'n', 'o', 'p', 'q', 'r', 's', 't', 'u', 'v', 'w', 'x', 'y', 'z', 'A', 'B', 'C', 'D', 'E', 'F', 'G', 'H', 'I', 'J', 'K', 'L', 'M', 'N', 'O', 'P', 'Q', 'R', 'S', 'T', 'U', 'V', 'W', 'X', 'Y', 'Z' };
public String shorten(String longUrl, int urlLength) { if (urlLength < 0 || urlLength > 6) { throw new IllegalArgumentException("the length of url must be between 0 and 6"); } String md5Hex = DigestUtils.md5Hex(longUrl); // 6 digit binary can indicate 62 letter & number from 0-9a-zA-Z int binaryLength = urlLength * 6; long binaryLengthFixer = Long.valueOf(StringUtils.repeat("1", binaryLength), BINARY); for (int i = 0; i < 4; i++) { String subString = StringUtils.substring(md5Hex, i * 8, (i + 1) * 8); subString = Long.toBinaryString(Long.valueOf(subString, 16) & binaryLengthFixer); subString = StringUtils.leftPad(subString, binaryLength, "0"); StringBuilder sbBuilder = new StringBuilder(); for (int j = 0; j < urlLength; j++) { String subString2 = StringUtils.substring(subString, j * 6, (j + 1) * 6); int charIndex = Integer.valueOf(subString2, BINARY) & NUMBER_61; sbBuilder.append(DIGITS[charIndex]); } String shortUrl = sbBuilder.toString(); if (lookupLong(shortUrl) != null) { continue; } else { return shortUrl; } } // if all 4 possibilities are already exists return null; }
2、自增序列:
a. 或者序列的自增值,將值用62進制表示。
private AtomicLong sequence = new AtomicLong(0); @Override protected String shorten(String longUrl) { long myseq = sequence.incrementAndGet(); String shortUrl = to62RadixString(myseq); return shortUrl; } private String to62RadixString(long seq) { StringBuilder sBuilder = new StringBuilder(); while (true) { int remainder = (int) (seq % 62); sBuilder.append(DIGITS[remainder]); seq = seq / 62; if (seq == 0) { break; } } return sBuilder.toString(); }
MAVEN工程中的代碼用2個MAP來模擬存放長-短網(wǎng)址的互相映射,實際使用中可能是基于數(shù)據(jù)庫表配合索引或者一些分布式KV系統(tǒng)來實現(xiàn)。
希望本文所述對大家學習短網(wǎng)址服務(wù)有所幫助。
相關(guān)文章
Java流程控制之循環(huán)結(jié)構(gòu)for,增強for循環(huán)
這篇文章主要介紹了Java流程控制之循環(huán)結(jié)構(gòu)for,增強for循環(huán),for循環(huán)是編程語言中一種循環(huán)語句,而循環(huán)語句由循環(huán)體及循環(huán)的判定條件兩部分組成,其表達式為:for(單次表達式;條件表達式;末尾循環(huán)體){中間循環(huán)體;},下面我們倆看看文章內(nèi)容的詳細介紹2021-12-12Gradle環(huán)境下導出Swagger為PDF的步驟詳解
這篇文章主要介紹了Gradle環(huán)境下導出Swagger為PDF的相關(guān)資料,文中通過示例代碼介紹的非常詳細,對大家的學習或者工作具有一定的參考學習價值,需要的朋友們下面來一起學習學習吧2019-06-06Springcloud Config配置中心使用與相關(guān)介紹
springcloud config是一個解決分布式系統(tǒng)的配置管理方案。它包含了 client和server兩個部分,server端提供配置文件的存儲、以接口的形式將配置文件的內(nèi)容提供出去,client端通過接口獲取數(shù)據(jù)、并依據(jù)此數(shù)據(jù)初始化自己的應(yīng)用2022-09-09SpringBoot整合Mybatis與MybatisPlus方法詳細講解
這篇文章主要介紹了SpringBoot整合Mybatis與MybatisPlus方法,文中通過示例代碼介紹的非常詳細,對大家的學習或者工作具有一定的參考學習價值,需要的朋友們下面隨著小編來一起學習吧2023-01-01在IntelliJ IDEA中為自己設(shè)計的類庫生成JavaDoc的方法示例
這篇文章主要介紹了在IntelliJ IDEA中為自己設(shè)計的類庫生成JavaDoc的方法示例,文中通過示例代碼介紹的非常詳細,對大家的學習或者工作具有一定的參考學習價值,需要的朋友們下面隨著小編來一起學習學習吧2020-08-08Idea如何使用Fast Request接口調(diào)試
這篇文章主要介紹了Idea如何使用Fast Request接口調(diào)試問題,具有很好的參考價值,希望對大家有所幫助,如有錯誤或未考慮完全的地方,望不吝賜教2023-11-11