Hi Jeff,<br><br>There is a trade off<br>.<br>The src/meta/file_h.f(line 234) will ONLY decode the string when it detects as chinese, korean or Japanese charsets. There is a similar implementation in the scanner.<br><br>if ( ( track_encoding.toUtf8() == &quot;gb18030&quot; ) || ( track_encoding.toUtf8() == &quot;big5&quot; )<br>
                    || ( track_encoding.toUtf8() == &quot;euc-kr&quot; ) || ( track_encoding.toUtf8() == &quot;euc-jp&quot; )<br>                    || ( track_encoding.toUtf8() == &quot;koi8-r&quot; ) )<br>//decode<br>else<br>
//leave it as UTF-8<br><br>I assume there is little possibility for the UTF-8 tracks to be detected as gb18030 or euc-kr or whatever. But that does not means 100% accuracy. I am expecting 95% accuracy. But if you guys think most users only have UTF-8 tags, then just remove the detecter.<br>
<br><br><br><div class="gmail_quote">On Wed, Oct 28, 2009 at 3:15 AM, Jeff Mitchell <span dir="ltr">&lt;<a href="mailto:mitchell@kde.org">mitchell@kde.org</a>&gt;</span> wrote:<br><blockquote class="gmail_quote" style="border-left: 1px solid rgb(204, 204, 204); margin: 0pt 0pt 0pt 0.8ex; padding-left: 1ex;">
Peter,<br>
<br>
I have some tracks that were sent to me from some Russian guy.<br>
<br>
Two of the tracks are showing up as all ????????????? for every tag. I<br>
tracked this down to the changes made by the charset detector, which<br>
detects the charset as gb18030.<br>
<br>
Thing is, it actually detects the charset of each track in the album as<br>
random things -- some are &quot;&quot;, some are gb18030, some are windows-1252.<br>
But I think they&#39;re all actually UTF-8 -- even when I tell eyeD3 to<br>
force-set the encoding to UTF-8 it still shows gb18030 on one of the<br>
problematic tracks.<br>
<br>
I&#39;ve tried explicitly removing the ID3v1 tags to ensure that the ID3v2<br>
tags are being read. No dice. The only thing that has worked is to<br>
comment out the charset detector stuff, at which point it looks normal<br>
in Amarok.<br>
<br>
So, what to do here? There are comments in the file:<br>
<br>
// HACK: charset-detector disabled, so all tags assumed utf-8<br>
// TODO: fix charset-detector to detect encoding with higher accuracy<br>
<br>
But Dan thinks it got fixed (although apparently not entirely) but that<br>
the comment simply didn&#39;t get removed.<br>
<br>
Any advice is appreciated.<br>
<font color="#888888"><br>
--Jeff<br>
<br>
</font></blockquote></div><br><br clear="all"><br>-- <br>Best Regards,<br>Peter Zhou<br>-------------------------------<br><a href="http://www.peterzl.net/">http://www.peterzl.net/</a><br>