add uchardet_get_confidence func

PyYoshi · PyYoshi · commit f1e11d644206 · 2017-03-27T21:32:55.000+09:00
diff --git a/src/nsSBCSGroupProber.cpp b/src/nsSBCSGroupProber.cpp
@@ -128,19 +128,19 @@ nsSBCSGroupProber::nsSBCSGroupProber()
 
   mProbers[46] = new nsSingleByteCharSetProber(&Windows_1250CzechModel);
   mProbers[47] = new nsSingleByteCharSetProber(&Iso_8859_2CzechModel);
-  mProbers[48] = new nsSingleByteCharSetProber(&Mac_CentraleuropeCzechModel);
+  mProbers[48] = new nsSingleByteCharSetProber(&MaccentraleuropeCzechModel);
   mProbers[49] = new nsSingleByteCharSetProber(&Ibm852CzechModel);
 
   mProbers[50] = new nsSingleByteCharSetProber(&Windows_1250SlovakModel);
   mProbers[51] = new nsSingleByteCharSetProber(&Iso_8859_2SlovakModel);
-  mProbers[52] = new nsSingleByteCharSetProber(&Mac_CentraleuropeSlovakModel);
+  mProbers[52] = new nsSingleByteCharSetProber(&MaccentraleuropeSlovakModel);
   mProbers[53] = new nsSingleByteCharSetProber(&Ibm852SlovakModel);
 
   mProbers[54] = new nsSingleByteCharSetProber(&Windows_1250PolishModel);
   mProbers[55] = new nsSingleByteCharSetProber(&Iso_8859_2PolishModel);
   mProbers[56] = new nsSingleByteCharSetProber(&Iso_8859_13PolishModel);
   mProbers[57] = new nsSingleByteCharSetProber(&Iso_8859_16PolishModel);
-  mProbers[58] = new nsSingleByteCharSetProber(&Mac_CentraleuropePolishModel);
+  mProbers[58] = new nsSingleByteCharSetProber(&MaccentraleuropePolishModel);
   mProbers[59] = new nsSingleByteCharSetProber(&Ibm852PolishModel);
 
   mProbers[60] = new nsSingleByteCharSetProber(&Iso_8859_1FinnishModel);
@@ -160,7 +160,7 @@ nsSBCSGroupProber::nsSBCSGroupProber()
   mProbers[71] = new nsSingleByteCharSetProber(&Iso_8859_2CroatianModel);
   mProbers[72] = new nsSingleByteCharSetProber(&Iso_8859_13CroatianModel);
   mProbers[73] = new nsSingleByteCharSetProber(&Iso_8859_16CroatianModel);
-  mProbers[74] = new nsSingleByteCharSetProber(&Mac_CentraleuropeCroatianModel);
+  mProbers[74] = new nsSingleByteCharSetProber(&MaccentraleuropeCroatianModel);
   mProbers[75] = new nsSingleByteCharSetProber(&Ibm852CroatianModel);
 
   mProbers[76] = new nsSingleByteCharSetProber(&Windows_1252EstonianModel);
@@ -182,7 +182,7 @@ nsSBCSGroupProber::nsSBCSGroupProber()
   mProbers[89] = new nsSingleByteCharSetProber(&Windows_1250SloveneModel);
   mProbers[90] = new nsSingleByteCharSetProber(&Iso_8859_2SloveneModel);
   mProbers[91] = new nsSingleByteCharSetProber(&Iso_8859_16SloveneModel);
-  mProbers[92] = new nsSingleByteCharSetProber(&Mac_CentraleuropeSloveneModel);
+  mProbers[92] = new nsSingleByteCharSetProber(&MaccentraleuropeSloveneModel);
   mProbers[93] = new nsSingleByteCharSetProber(&Ibm852SloveneModel);
 
   mProbers[94] = new nsSingleByteCharSetProber(&Iso_8859_1SwedishModel);
diff --git a/src/nsSBCharSetProber.h b/src/nsSBCharSetProber.h
@@ -190,19 +190,19 @@ extern const SequenceModel Iso_8859_3MalteseModel;
 extern const SequenceModel Windows_1250CzechModel;
 extern const SequenceModel Iso_8859_2CzechModel;
 extern const SequenceModel Ibm852CzechModel;
-extern const SequenceModel Mac_CentraleuropeCzechModel;
+extern const SequenceModel MaccentraleuropeCzechModel;
 
 extern const SequenceModel Windows_1250SlovakModel;
 extern const SequenceModel Iso_8859_2SlovakModel;
 extern const SequenceModel Ibm852SlovakModel;
-extern const SequenceModel Mac_CentraleuropeSlovakModel;
+extern const SequenceModel MaccentraleuropeSlovakModel;
 
 extern const SequenceModel Windows_1250PolishModel;
 extern const SequenceModel Iso_8859_2PolishModel;
 extern const SequenceModel Iso_8859_13PolishModel;
 extern const SequenceModel Iso_8859_16PolishModel;
 extern const SequenceModel Ibm852PolishModel;
-extern const SequenceModel Mac_CentraleuropePolishModel;
+extern const SequenceModel MaccentraleuropePolishModel;
 
 extern const SequenceModel Iso_8859_1FinnishModel;
 extern const SequenceModel Iso_8859_4FinnishModel;
@@ -222,7 +222,7 @@ extern const SequenceModel Iso_8859_2CroatianModel;
 extern const SequenceModel Iso_8859_13CroatianModel;
 extern const SequenceModel Iso_8859_16CroatianModel;
 extern const SequenceModel Ibm852CroatianModel;
-extern const SequenceModel Mac_CentraleuropeCroatianModel;
+extern const SequenceModel MaccentraleuropeCroatianModel;
 
 extern const SequenceModel Windows_1252EstonianModel;
 extern const SequenceModel Windows_1257EstonianModel;
@@ -244,7 +244,7 @@ extern const SequenceModel Windows_1250SloveneModel;
 extern const SequenceModel Iso_8859_2SloveneModel;
 extern const SequenceModel Iso_8859_16SloveneModel;
 extern const SequenceModel Ibm852SloveneModel;
-extern const SequenceModel Mac_CentraleuropeSloveneModel;
+extern const SequenceModel MaccentraleuropeSloveneModel;
 
 extern const SequenceModel Iso_8859_1SwedishModel;
 extern const SequenceModel Iso_8859_4SwedishModel;
diff --git a/src/nsUniversalDetector.cpp b/src/nsUniversalDetector.cpp
@@ -55,6 +55,7 @@ nsUniversalDetector::nsUniversalDetector(PRUint32 aLanguageFilter)
 
   mStart = PR_TRUE;
   mDetectedCharset = nsnull;
+  mDetectedConfidence = 0.0;
   mGotData = PR_FALSE;
   mInputState = ePureAscii;
   mLastChar = '\0';
@@ -83,6 +84,7 @@ nsUniversalDetector::Reset()
 
   mStart = PR_TRUE;
   mDetectedCharset = nsnull;
+  mDetectedConfidence = 0.0;
   mGotData = PR_FALSE;
   mInputState = ePureAscii;
   mLastChar = '\0';
@@ -120,11 +122,13 @@ nsresult nsUniversalDetector::HandleData(const char* aBuf, PRUint32 aLen)
           if (('\xBB' == aBuf[1]) && ('\xBF' == aBuf[2]))
             /* EF BB BF: UTF-8 encoded BOM. */
             mDetectedCharset = "UTF-8";
+            mDetectedConfidence = 0.99;
         break;
         case '\xFE':
           if ('\xFF' == aBuf[1])
             /* FE FF: UTF-16, big endian BOM. */
             mDetectedCharset = "UTF-16";
+            mDetectedConfidence = 0.99;
         break;
         case '\xFF':
           if ('\xFE' == aBuf[1])
@@ -135,11 +139,13 @@ nsresult nsUniversalDetector::HandleData(const char* aBuf, PRUint32 aLen)
             {
                 /* FF FE 00 00: UTF-32 (LE). */
                 mDetectedCharset = "UTF-32";
+                mDetectedConfidence = 0.99;
             }
             else
             {
                 /* FF FE: UTF-16, little endian BOM. */
                 mDetectedCharset = "UTF-16";
+                mDetectedConfidence = 0.99;
             }
           }
           break;
@@ -151,6 +157,7 @@ nsresult nsUniversalDetector::HandleData(const char* aBuf, PRUint32 aLen)
           {
               /* 00 00 FE FF: UTF-32 (BE). */
               mDetectedCharset = "UTF-32";
+              mDetectedConfidence = 0.99;
           }
           break;
         }
@@ -241,16 +248,19 @@ nsresult nsUniversalDetector::HandleData(const char* aBuf, PRUint32 aLen)
     {
       mDone = PR_TRUE;
       mDetectedCharset = mEscCharSetProber->GetCharSetName();
+      mDetectedConfidence = mEscCharSetProber->GetConfidence();
     }
     else if (mNbspFound)
     {
       mDetectedCharset = "ISO-8859-1";
+      mDetectedConfidence = 1.0;
     }
     else
     {
       /* ASCII with the ESC character (or the sequence "~{") is still
        * ASCII until proven otherwise. */
       mDetectedCharset = "ASCII";
+      mDetectedConfidence = 1.0;
     }
     break;
   case eHighbyte:
@@ -263,6 +273,7 @@ nsresult nsUniversalDetector::HandleData(const char* aBuf, PRUint32 aLen)
         {
           mDone = PR_TRUE;
           mDetectedCharset = mCharSetProbers[i]->GetCharSetName();
+          mDetectedConfidence = mCharSetProbers[i]->GetConfidence();
           return NS_OK;
         }
       }
@@ -275,11 +286,13 @@ nsresult nsUniversalDetector::HandleData(const char* aBuf, PRUint32 aLen)
       /* ISO-8859-1 is a good result candidate for ASCII + NBSP.
        * (though it could have been any ISO-8859 encoding). */
       mDetectedCharset = "ISO-8859-1";
+      mDetectedConfidence = 1.0;
     }
     else
     {
       /* Pure ASCII */
       mDetectedCharset = "ASCII";
+      mDetectedConfidence = 1.0;
     }
     break;
   }
@@ -300,7 +313,7 @@ void nsUniversalDetector::DataEnd()
   if (mDetectedCharset)
   {
     mDone = PR_TRUE;
-    Report(mDetectedCharset);
+    Report(mDetectedCharset, mDetectedConfidence);
     return;
   }
 
@@ -326,7 +339,7 @@ void nsUniversalDetector::DataEnd()
       }
       //do not report anything because we are not confident of it, that's in fact a negative answer
       if (maxProberConfidence > MINIMUM_THRESHOLD)
-        Report(mCharSetProbers[maxProber]->GetCharSetName());
+        Report(mCharSetProbers[maxProber]->GetCharSetName(), mCharSetProbers[maxProber]->GetConfidence());
     }
     break;
   case eEscAscii:
diff --git a/src/nsUniversalDetector.h b/src/nsUniversalDetector.h
@@ -69,7 +69,7 @@ class nsUniversalDetector {
    virtual void DataEnd(void);
 
 protected:
-   virtual void Report(const char* aCharset) = 0;
+   virtual void Report(const char* aCharset, float aConfidence) = 0;
    virtual void Reset();
    nsInputState  mInputState;
    PRBool  mNbspFound;
@@ -79,6 +79,7 @@ class nsUniversalDetector {
    PRBool  mGotData;
    char    mLastChar;
    const char *  mDetectedCharset;
+   float mDetectedConfidence;
    PRInt32 mBestGuess;
    PRUint32 mLanguageFilter;
 
diff --git a/src/symbols.cmake b/src/symbols.cmake
@@ -6,6 +6,7 @@ set(
 	uchardet_data_end
 	uchardet_reset
 	uchardet_get_charset
+	uchardet_get_confidence
 )
 
 set (LINK_FLAGS "")
diff --git a/src/uchardet.cpp b/src/uchardet.cpp
@@ -44,25 +44,29 @@ class HandleUniversalDetector : public nsUniversalDetector
 {
 protected:
     char *m_charset;
-
+    float m_confidence;
 public:
     HandleUniversalDetector()
     : nsUniversalDetector(NS_FILTER_ALL)
     , m_charset(0)
     {
+        m_confidence = 0.0;
     }
 
     virtual ~HandleUniversalDetector()
     {
-        if (m_charset)
+        if (m_charset) {
             free(m_charset);
+            m_confidence = 0.0;
+        }
     }
 
-    virtual void Report(const char* charset)
+    virtual void Report(const char* charset, float confidence)
     {
         if (m_charset)
             free(m_charset);
         m_charset = strdup(charset);
+        m_confidence = confidence;
     }
 
     virtual void Reset()
@@ -71,12 +75,17 @@ class HandleUniversalDetector : public nsUniversalDetector
         if (m_charset)
             free(m_charset);
         m_charset = strdup("");
+        m_confidence = 0.0;
     }
 
     const char* GetCharset() const
     {
         return m_charset? m_charset : "";
     }
+
+    float GetConfidence() {
+        return m_confidence;
+    }
 };
 
 uchardet_t uchardet_new(void)
@@ -109,3 +118,8 @@ const char* uchardet_get_charset(uchardet_t ud)
 {
     return reinterpret_cast<HandleUniversalDetector*>(ud)->GetCharset();
 }
+
+float uchardet_get_confidence(uchardet_t ud)
+{
+    return reinterpret_cast<HandleUniversalDetector*>(ud)->GetConfidence();
+}
diff --git a/src/uchardet.h b/src/uchardet.h
@@ -93,6 +93,8 @@ void uchardet_reset(uchardet_t ud);
  */
 const char * uchardet_get_charset(uchardet_t ud);
 
+float uchardet_get_confidence(uchardet_t ud);
+
 #ifdef __cplusplus
 }
 #endif

Original file line number	Diff line number	Diff line change
`@@ -55,6 +55,7 @@ nsUniversalDetector::nsUniversalDetector(PRUint32 aLanguageFilter)`
`55`	`55`
`56`	`56`	`mStart = PR_TRUE;`
`57`	`57`	`mDetectedCharset = nsnull;`
	`58`	`+ mDetectedConfidence = 0.0;`
`58`	`59`	`mGotData = PR_FALSE;`
`59`	`60`	`mInputState = ePureAscii;`
`60`	`61`	`mLastChar = '\0';`
`@@ -83,6 +84,7 @@ nsUniversalDetector::Reset()`
`83`	`84`
`84`	`85`	`mStart = PR_TRUE;`
`85`	`86`	`mDetectedCharset = nsnull;`
	`87`	`+ mDetectedConfidence = 0.0;`
`86`	`88`	`mGotData = PR_FALSE;`
`87`	`89`	`mInputState = ePureAscii;`
`88`	`90`	`mLastChar = '\0';`
`@@ -120,11 +122,13 @@ nsresult nsUniversalDetector::HandleData(const char* aBuf, PRUint32 aLen)`
`120`	`122`	`if (('\xBB' == aBuf[1]) && ('\xBF' == aBuf[2]))`
`121`	`123`	`/* EF BB BF: UTF-8 encoded BOM. */`
`122`	`124`	`mDetectedCharset = "UTF-8";`
	`125`	`+ mDetectedConfidence = 0.99;`
`123`	`126`	`break;`
`124`	`127`	`case '\xFE':`
`125`	`128`	`if ('\xFF' == aBuf[1])`
`126`	`129`	`/* FE FF: UTF-16, big endian BOM. */`
`127`	`130`	`mDetectedCharset = "UTF-16";`
	`131`	`+ mDetectedConfidence = 0.99;`
`128`	`132`	`break;`
`129`	`133`	`case '\xFF':`
`130`	`134`	`if ('\xFE' == aBuf[1])`
`@@ -135,11 +139,13 @@ nsresult nsUniversalDetector::HandleData(const char* aBuf, PRUint32 aLen)`
`135`	`139`	`{`
`136`	`140`	`/* FF FE 00 00: UTF-32 (LE). */`
`137`	`141`	`mDetectedCharset = "UTF-32";`
	`142`	`+ mDetectedConfidence = 0.99;`
`138`	`143`	`}`
`139`	`144`	`else`
`140`	`145`	`{`
`141`	`146`	`/* FF FE: UTF-16, little endian BOM. */`
`142`	`147`	`mDetectedCharset = "UTF-16";`
	`148`	`+ mDetectedConfidence = 0.99;`
`143`	`149`	`}`
`144`	`150`	`}`
`145`	`151`	`break;`
`@@ -151,6 +157,7 @@ nsresult nsUniversalDetector::HandleData(const char* aBuf, PRUint32 aLen)`
`151`	`157`	`{`
`152`	`158`	`/* 00 00 FE FF: UTF-32 (BE). */`
`153`	`159`	`mDetectedCharset = "UTF-32";`
	`160`	`+ mDetectedConfidence = 0.99;`
`154`	`161`	`}`
`155`	`162`	`break;`
`156`	`163`	`}`
`@@ -241,16 +248,19 @@ nsresult nsUniversalDetector::HandleData(const char* aBuf, PRUint32 aLen)`
`241`	`248`	`{`
`242`	`249`	`mDone = PR_TRUE;`
`243`	`250`	`mDetectedCharset = mEscCharSetProber->GetCharSetName();`
	`251`	`+ mDetectedConfidence = mEscCharSetProber->GetConfidence();`
`244`	`252`	`}`
`245`	`253`	`else if (mNbspFound)`
`246`	`254`	`{`
`247`	`255`	`mDetectedCharset = "ISO-8859-1";`
	`256`	`+ mDetectedConfidence = 1.0;`
`248`	`257`	`}`
`249`	`258`	`else`
`250`	`259`	`{`
`251`	`260`	`/* ASCII with the ESC character (or the sequence "~{") is still`
`252`	`261`	`* ASCII until proven otherwise. */`
`253`	`262`	`mDetectedCharset = "ASCII";`
	`263`	`+ mDetectedConfidence = 1.0;`
`254`	`264`	`}`
`255`	`265`	`break;`
`256`	`266`	`case eHighbyte:`
`@@ -263,6 +273,7 @@ nsresult nsUniversalDetector::HandleData(const char* aBuf, PRUint32 aLen)`
`263`	`273`	`{`
`264`	`274`	`mDone = PR_TRUE;`
`265`	`275`	`mDetectedCharset = mCharSetProbers[i]->GetCharSetName();`
	`276`	`+ mDetectedConfidence = mCharSetProbers[i]->GetConfidence();`
`266`	`277`	`return NS_OK;`
`267`	`278`	`}`
`268`	`279`	`}`
`@@ -275,11 +286,13 @@ nsresult nsUniversalDetector::HandleData(const char* aBuf, PRUint32 aLen)`
`275`	`286`	`/* ISO-8859-1 is a good result candidate for ASCII + NBSP.`
`276`	`287`	`* (though it could have been any ISO-8859 encoding). */`
`277`	`288`	`mDetectedCharset = "ISO-8859-1";`
	`289`	`+ mDetectedConfidence = 1.0;`
`278`	`290`	`}`
`279`	`291`	`else`
`280`	`292`	`{`
`281`	`293`	`/* Pure ASCII */`
`282`	`294`	`mDetectedCharset = "ASCII";`
	`295`	`+ mDetectedConfidence = 1.0;`
`283`	`296`	`}`
`284`	`297`	`break;`
`285`	`298`	`}`
`@@ -300,7 +313,7 @@ void nsUniversalDetector::DataEnd()`
`300`	`313`	`if (mDetectedCharset)`
`301`	`314`	`{`
`302`	`315`	`mDone = PR_TRUE;`
`303`		`- Report(mDetectedCharset);`
	`316`	`+ Report(mDetectedCharset, mDetectedConfidence);`
`304`	`317`	`return;`
`305`	`318`	`}`
`306`	`319`
`@@ -326,7 +339,7 @@ void nsUniversalDetector::DataEnd()`
`326`	`339`	`}`
`327`	`340`	`//do not report anything because we are not confident of it, that's in fact a negative answer`
`328`	`341`	`if (maxProberConfidence > MINIMUM_THRESHOLD)`
`329`		`- Report(mCharSetProbers[maxProber]->GetCharSetName());`
	`342`	`+ Report(mCharSetProbers[maxProber]->GetCharSetName(), mCharSetProbers[maxProber]->GetConfidence());`
`330`	`343`	`}`
`331`	`344`	`break;`
`332`	`345`	`case eEscAscii:`
Original file line number	Diff line number	Diff line change
`@@ -6,6 +6,7 @@ set(`
`6`	`6`	`uchardet_data_end`
`7`	`7`	`uchardet_reset`
`8`	`8`	`uchardet_get_charset`
	`9`	`+ uchardet_get_confidence`
`9`	`10`	`)`
`10`	`11`
`11`	`12`	`set (LINK_FLAGS "")`
Original file line number	Diff line number	Diff line change
`@@ -44,25 +44,29 @@ class HandleUniversalDetector : public nsUniversalDetector`
`44`	`44`	`{`
`45`	`45`	`protected:`
`46`	`46`	`char *m_charset;`
`47`		`-`
	`47`	`+ float m_confidence;`
`48`	`48`	`public:`
`49`	`49`	`HandleUniversalDetector()`
`50`	`50`	`: nsUniversalDetector(NS_FILTER_ALL)`
`51`	`51`	`, m_charset(0)`
`52`	`52`	`{`
	`53`	`+ m_confidence = 0.0;`
`53`	`54`	`}`
`54`	`55`
`55`	`56`	`virtual ~HandleUniversalDetector()`
`56`	`57`	`{`
`57`		`- if (m_charset)`
	`58`	`+ if (m_charset) {`
`58`	`59`	`free(m_charset);`
	`60`	`+ m_confidence = 0.0;`
	`61`	`+ }`
`59`	`62`	`}`
`60`	`63`
`61`		`- virtual void Report(const char* charset)`
	`64`	`+ virtual void Report(const char* charset, float confidence)`
`62`	`65`	`{`
`63`	`66`	`if (m_charset)`
`64`	`67`	`free(m_charset);`
`65`	`68`	`m_charset = strdup(charset);`
	`69`	`+ m_confidence = confidence;`
`66`	`70`	`}`
`67`	`71`
`68`	`72`	`virtual void Reset()`
`@@ -71,12 +75,17 @@ class HandleUniversalDetector : public nsUniversalDetector`
`71`	`75`	`if (m_charset)`
`72`	`76`	`free(m_charset);`
`73`	`77`	`m_charset = strdup("");`
	`78`	`+ m_confidence = 0.0;`
`74`	`79`	`}`
`75`	`80`
`76`	`81`	`const char* GetCharset() const`
`77`	`82`	`{`
`78`	`83`	`return m_charset? m_charset : "";`
`79`	`84`	`}`
	`85`	`+`
	`86`	`+ float GetConfidence() {`
	`87`	`+ return m_confidence;`
	`88`	`+ }`
`80`	`89`	`};`
`81`	`90`
`82`	`91`	`uchardet_t uchardet_new(void)`
`@@ -109,3 +118,8 @@ const char* uchardet_get_charset(uchardet_t ud)`
`109`	`118`	`{`
`110`	`119`	`return reinterpret_cast<HandleUniversalDetector*>(ud)->GetCharset();`
`111`	`120`	`}`
	`121`	`+`
	`122`	`+float uchardet_get_confidence(uchardet_t ud)`
	`123`	`+{`
	`124`	`+ return reinterpret_cast<HandleUniversalDetector*>(ud)->GetConfidence();`
	`125`	`+}`
Original file line number	Diff line number	Diff line change
`@@ -93,6 +93,8 @@ void uchardet_reset(uchardet_t ud);`
`93`	`93`	`*/`
`94`	`94`	`const char * uchardet_get_charset(uchardet_t ud);`
`95`	`95`
	`96`	`+float uchardet_get_confidence(uchardet_t ud);`
	`97`	`+`
`96`	`98`	`#ifdef __cplusplus`
`97`	`99`	`}`
`98`	`100`	`#endif`