LintCode 乱序字符串

今天做了一道中等难度的字符串题目,这道题目花了我两个小时,不过也做了不少的思考,写篇日志记录一下我的思考过程。

首先是题目内容:
<h4>题目</h4>
给出一个字符串数组S,找到其中所有的乱序字符串(Anagram)。如果一个字符串是乱序字符串,那么他存在一个字母集合相同,但顺序不同的字符串也在S中。

<h4>样例</h4>
对于字符串数组 ["lint","intl","inlt","code"]
返回 ["lint","inlt","intl"]
<h4>注意</h4>
所有的字符串都只包含小写字母

我一开始的想法很简单,先写一个算法判断两个字符串是否为乱序字符串,再遍历整个数组S,找出所有的乱序字符串。判断乱序字符串的方法就是把一个字符串放入HashMap当中,使用HashMap<Character, int>记录字符串,如果有重复的字符就把map的value值++,再遍历第二个字符串和第一个生成出来的map,遇到相同的就把HashMap对应char的value减1,减为0就remove掉这个key。

具体是这样的

    public boolean compareStrings(String A, String B) {
        CompareString cs = new CompareString();
        if(B.length() > A.length())
            return false;
        Map<Character,Integer> aMap = cs.StringToMap(A);
        //Map<Character,Integer> bMap = cs.StringToMap(B);
        for(int i = 0; i < B.length(); i++){
            char b = B.charAt(i);
            if (aMap.containsKey(b)){
                if(aMap.get(b) > 1){
                    int times = aMap.get(b)-1;
                    aMap.put(b, times);
                }else
                    aMap.remove(b);
            }else
                return false;
        }
        return true;
    }

    public Map<Character,Integer> StringToMap(String S){
        Map<Character,Integer> sMap = new HashMap<Character,Integer>();
        for(int i = 0; i < S.length();i++){
            char a = S.charAt(i);
            if(sMap.containsKey(a)){
                int times = sMap.get(a)+1;
                sMap.put(a, times);
            }else
                sMap.put(a, 1);
        }
        return sMap;
    }

不过这样的想法虽然可行,但是算法复杂度却有O(n2)那么高!因为要把整个数组S里面的String两两比较一遍,我觉得这太蠢了,一定有更加简单易行的方法。

于是,必须转换思路。

我想到,如果ASCII码来判断两个字符串是否为乱序字符串呢?就好像MD5算法一样,我最后只需要给每一个乱序字符串算出一个特定的数字,用这个数字作为key,把所有等于这个key的字符串放入一个list中,把这个list作为value,用这样的<key, value>组成HashMap,这样我只需要便利一遍字符串数组S,再遍历一遍生成的HashMap,把Map中value的list长度大于1的都放到return list中作为该程序的返回值,问题不就引刃而解了吗!这样算法复杂度只有O(n),等于用空间换时间了,可行!

于是写出了这样的算法

import java.util.ArrayList;
import java.util.HashMap;
import java.util.Iterator;
import java.util.List;
import java.util.Map;

public class disOrderString {
    /**
     * @param strs: A list of strings
     * @return: A list of strings
     */
    public List<String> anagrams(String[] strs) {
        List<String> disOrderList = new ArrayList<String>();
        Map<Long,List<String>> anagram = new HashMap<Long,List<String>>();
        disOrderString ds = new disOrderString();
        for(int i = 0; i< strs.length;i++){
            String str = strs[i];
            long strAscii = ds.stringToAscii(str);
            System.out.println(strAscii + ":" + str);
            if(anagram.containsKey(strAscii)){
                anagram.get(strAscii).add(str);
            }else{
                List<String> strString  = new ArrayList<String>();
                strString.add(str);
                anagram.put(strAscii, strString);
            }
        }
        Iterator iter = anagram.entrySet().iterator();
        while(iter.hasNext()){
            Map.Entry entry = (Map.Entry) iter.next();
            List<String> list = (List<String>) entry.getValue();
            if(list.size() > 1)
                disOrderList.addAll(list);
        }
        return disOrderList;
    }
   
    //it's unique
    public long stringToAscii(String target){
        long asciiSum = 0;
        int length = target.length();
        for(int i = 0;i<target.length();i++){
            asciiSum += Math.pow(target.charAt(i) - 'a' + 1,7); 
        }
        if(length == 0)
            return 0;
        return (long) (asciiSum*asciiSum/length);
    }
    
    public static void main(String args[]){
        disOrderString ds = new disOrderString();
        String[] strs = {"coroners","crooners","deed","ed","gums","mugs","per","potties","rep","sanity","satiny","smug","tiptoes"};
        List ret = ds.anagrams(strs);
        for(int i = 0; i < ret.size();i++){
            System.out.println(ret.get(i));
        }
    }
}

其中,stringToAscii(String target) 里的加权算法我调整了很多次,最后决定使用7次方,因为7是一个出现频率相对低的质数,而最后返回加权后的ascii码的平方与长度的比值,将字符串长度也考虑到其中,减少误差。最终通过了lintCode 的测试,不过我觉得这个算法依然有改进的空间,当数组足够复杂的情况下,可能依然有误算的情况出现。

7次方的计算是一个非常耗费时间的计算,而楼下评论中有人给出了更简化的算法,思路非常简单,但我当时一门心思钻进了计算hash数值的死胡同里……

链接在此: Find Anagrams

他的思路也是认为每一组乱序字符串都有唯一的相同的“ Hash 值 ”,但是这个值不局限于数值,而是数字和字母的结合,比如 "and" 和 "dan",他们的“ Hash 值 ”就是“a1d1n1","array" 和 "yarar" 就是 a2r2y1,这样就确保了唯一性,算法效率也很高。
代码如下

public ArrayList<String> anagrams(String[] strs) {  
  HashMap<String, ArrayList<String>> hash = new HashMap<String, ArrayList<String>>();  
  for (String str : strs) {  
    // create unique label for each string  
    String key = generalLabel(str);  
    // map the label to a list of anagrams  
    ArrayList<String> res = hash.get(key);  
    if (res==null) {  
      res = new ArrayList<String>();  
      hash.put(key, res);  
    }  
    res.add(str);  
  }  
  ArrayList<String> resSet = new ArrayList<String>();  
  for (ArrayList<String> anagram : hash.values()) {  
    // ignore strings without anagrams  
    if (anagram.size()>1) resSet.addAll(anagram);  
  }  
  return resSet;  
}  

/*  
 * create a unique label for a string  
 * "cat", "atc" => a1c1t1  
 */  
public String generalLabel(String str) {  
  int[] hash = new int[26];  
  for (int i=0; i<str.length(); ++i) {  
    int index = (int)(str.charAt(i) - 'a');  
    hash[index]++;  
  }  
  StringBuilder ss = new StringBuilder();  
  for (int i=0; i<26; ++i) {  
    if (hash[i]==0) continue;  
    char c = (char)('a' + i);  
    ss.append(c);  
    ss.append(hash[i]);  
  }  
  return ss.toString();  
}  
最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 204,445评论 6 478
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 85,889评论 2 381
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 151,047评论 0 337
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 54,760评论 1 276
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 63,745评论 5 367
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 48,638评论 1 281
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 38,011评论 3 398
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 36,669评论 0 258
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 40,923评论 1 299
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 35,655评论 2 321
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 37,740评论 1 330
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 33,406评论 4 320
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 38,995评论 3 307
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 29,961评论 0 19
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 31,197评论 1 260
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 45,023评论 2 350
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 42,483评论 2 342

推荐阅读更多精彩内容

  • 题目 给出一个字符串数组S,找到其中所有的乱序字符串(Anagram)。如果一个字符串是乱序字符串,那么他存在一个...
    六尺帐篷阅读 536评论 0 1
  • 问题描述如下:给出一个字符串数组S,找到其中所有的乱序字符串(Anagram)。如果一个字符串是乱序字符串,那么他...
    爱秋刀鱼的猫阅读 440评论 1 1
  • 版权声明:本文为博主原创文章,未经博主允许不得转载。 难度:中等 要求: 给出一个字符串数组S,找到其中所有的乱序...
    柒黍阅读 354评论 0 0
  • 背景 一年多以前我在知乎上答了有关LeetCode的问题, 分享了一些自己做题目的经验。 张土汪:刷leetcod...
    土汪阅读 12,719评论 0 33
  • 1. Java基础部分 基础部分的顺序:基本语法,类相关的语法,内部类的语法,继承相关的语法,异常的语法,线程的语...
    子非鱼_t_阅读 31,567评论 18 399