我正在尝试从谷歌的文本转语音功能中提取音频文件。基本上,您输入链接,然后在其末尾连接您想要说的任何内容。我已经让下面的代码适用于英语,所以我认为问题一定是中文字符如何在请求中编码。这是我所得到的:
String text = "text to be spoken";
public static final String AUDIO_CHINESE= "http://www.translate.google.com/translate_tts?tl=zh&q=";
public static final String AUDIO_ENGLISH = "http://www.translate.google.com/translate_tts?tl=en&q=";
URL url = new URL(AUDIO_ENGLISH + text);
urlConnection = (HttpURLConnection) url.openConnection();
urlConnection.setRequestMethod("GET");
urlConnection.setRequestProperty("Accept-Charset", Variables.UTF_8);
if (urlConnection.getResponseCode() ==200) {
//get byte array in response
in = new DataInputStream(urlConnection.getInputStream());
} else {
in = new DataInputStream(urlConnection.getErrorStream());
}
//use commons io
byte[] bytes = IOUtils.toByteArray(in);
in.close();
urlConnection.disconnect();
return bytes;
但是,当我尝试使用中文字符时,它会返回一些我无法在媒体播放器中播放的内容(我怀疑这不是一个正确的音频文件,因为绝大多数字节都是“85”)。所以我都尝试过
String chText = "你好";
URL url = new URL(AUDIO_CHINESE + URLEncoder.encode(chText, "UTF-8));
and
URL url = new URL(AUDIO_CHINESE + Uri.encode(chText, "UTF-8"));
然后添加
urlConnection.setRequestProperty("content-type", "application/x-www-form-urlencoded; charset=UTF-8");
到请求头。但这只会让情况变得更糟,因为现在它甚至不返回 200 代码,而是在 logcat 中声明“FileNotFound”。
于是一时兴起,我回去尝试用英文文本进行URL/Uri编码,现在英文也不会返回有效的结果。不确定这里发生了什么:如果我复制并粘贴到 Chrome 中,调试器中的原始 url 工作正常,但由于某种原因 urlConnection 不起作用。感觉我错过了一些明显的东西。
EDIT
再摆弄它并没有发现任何答案,只是更多的困惑(和愤怒)。由于某种原因,当通过 httpurlconnection 发送时,Google tts 机器将 utf-8% 编码的文本读取为 utf-16,至少据我所知。例如,字符“维”(wei2)是%E7%B6%AD
,但是如果您通过连接传递它,您将获得一个发音为“see”(准确地说是“ç”)的文件。
ç,事实证明,是0x00E7
UTF-16 格式(其 utf-8 百分比编码版本为%C3%A7
)。我不知道为什么在 Java 中会这样做,因为在任何浏览器中将适当的 % 放在链接末尾都可以正常工作。到目前为止,我已经尝试了各种组合,试图让 tts 阅读全文%E7%B6%AD
没有取得多大成功。
EDIT2
我的问题找到了解决方案!请参阅下面的答案。问题不在于编码,而在于谷歌端的解析。已相应地编辑了标题。干杯!