it-roy-ru.com

Как я могу определить кодировку/кодовую страницу текстового файла

В нашем приложении мы получаем текстовые файлы (.txt, .csv и т.д.) Из разных источников. При чтении эти файлы иногда содержат мусор, поскольку файлы были созданы в другой/неизвестной кодовой странице.

Есть ли способ (автоматически) определить кодовую страницу текстового файла? 

detectEncodingFromByteOrderMarks в конструкторе StreamReader работает для UTF8 и других файлов, помеченных юникодом, но я ищу способ обнаружения кодовых страниц, таких как ibm850, windows1252


Спасибо за ваши ответы, это то, что я сделал.

Файлы, которые мы получаем от конечных пользователей, не имеют понятия о кодовых страницах. Получатели также являются конечными пользователями, и теперь они знают о кодовых страницах: кодовые страницы существуют и раздражают.

Решение:  

  • Откройте полученный файл в блокноте, посмотрите на искаженный фрагмент текста. Если кого-то зовут Франсуа или что-то еще, с вашим человеческим интеллектом вы можете догадаться об этом.
  • Я создал небольшое приложение, с помощью которого пользователь может открыть файл и ввести текст, который, как он знает, будет отображаться в файле при использовании правильной кодовой страницы. 
  • Переберите все кодовые страницы и отобразите те, которые дают решение, с предоставленным пользователем текстом. 
  • Если появляется более одной кодовой страницы, попросите пользователя указать больше текста.
283
GvS

Вы не можете обнаружить кодовую страницу, вам нужно сказать это. Вы можете проанализировать байты и угадать это, но это может дать некоторые странные (иногда забавные) результаты. Я не могу найти его сейчас, но я уверен, что Блокнот можно обмануть для отображения английского текста на китайском языке. 

В любом случае, это то, что вам нужно прочитать: Абсолютный минимум, который должен знать каждый разработчик программного обеспечения Абсолютно, положительно должен знать о Unicode и наборах символов (без оправданий!) .

В частности, Джоэл говорит:

Самый важный факт о кодировках

Если вы полностью забудете все, что я только что объяснил, пожалуйста, запомните один чрезвычайно важный факт. Не имеет смысла иметь строку, не зная, какую кодировку она использует. Вы больше не можете засовывать голову в песок и делать вид, что «простой» текст - ASCII . Там нет такого понятия, как обычный текст.

Если у вас есть строка, в памяти, в файле или в сообщении электронной почты, вы должны знать, в какой кодировке она находится, или вы не можете ее интерпретировать или правильно отображать для пользователей.

255
JV.

Если вы хотите обнаружить кодировки, отличные от UTF (т. Е. Нет спецификации), вы в основном дошли до эвристики и статистического анализа текста. Возможно, вы захотите взглянуть на документ Mozilla об универсальном обнаружении кодировки ( та же ссылка, с лучшим форматированием через Wayback Machine ).

30
Tomer Gabel

Вы пробовали C # порт для Mozilla Universal Charset Detector

Пример из http://code.google.com/p/ude/

public static void Main(String[] args)
{
    string filename = args[0];
    using (FileStream fs = File.OpenRead(filename)) {
        Ude.CharsetDetector cdet = new Ude.CharsetDetector();
        cdet.Feed(fs);
        cdet.DataEnd();
        if (cdet.Charset != null) {
            Console.WriteLine("Charset: {0}, confidence: {1}", 
                 cdet.Charset, cdet.Confidence);
        } else {
            Console.WriteLine("Detection failed.");
        }
    }
}    
21
ITmeze

Вы не можете обнаружить кодовую страницу

Это явно неверно. Каждый веб-браузер имеет своего рода универсальный детектор кодировки для работы со страницами, которые не имеют никаких признаков кодировки. У Firefox есть один. Вы можете скачать код и посмотреть, как он это делает. Смотрите некоторую документацию здесь . По сути, это эвристика, но она работает очень хорошо.

Учитывая разумное количество текста, можно даже определить язык.

Вот еще один Я только что нашел с помощью Google:

15
shoosh

Я знаю, что уже слишком поздно для этого вопроса, и это решение не понравится некоторым (из-за его англо-ориентированного уклона и отсутствия статистического/эмпирического тестирования), но оно очень хорошо сработало для меня, особенно для обработки выгруженных данных CSV:

http://www.architectshack.com/TextFileEncodingDetector.ashx

Преимущества:

  • Встроенное обнаружение спецификации
  • Настраиваемая/резервная кодировка по умолчанию
  • довольно надежный (по моему опыту) для западноевропейских файлов, содержащих некоторые экзотические данные (например, французские имена) со смесью файлов в стиле UTF-8 и Latin-1 - в основном это большая часть среды США и Западной Европы.

Примечание: я тот, кто написал этот класс, так что, очевидно, возьмите его с крошкой соли! :)

8
Tao

В поисках другого решения я обнаружил, что 

https://code.google.com/p/ude/

это решение довольно тяжело.

Мне нужно было базовое обнаружение кодирования, основанное на 4 первых байтах и, возможно, обнаружение кодировки xml - поэтому я взял пример исходного кода из Интернета и добавил слегка измененную версию

http://lists.w3.org/Archives/Public/www-validator/2002Aug/0084.html

написано для Java.

    public static Encoding DetectEncoding(byte[] fileContent)
    {
        if (fileContent == null)
            throw new ArgumentNullException();

        if (fileContent.Length < 2)
            return Encoding.ASCII;      // Default fallback

        if (fileContent[0] == 0xff
            && fileContent[1] == 0xfe
            && (fileContent.Length < 4
                || fileContent[2] != 0
                || fileContent[3] != 0
                )
            )
            return Encoding.Unicode;

        if (fileContent[0] == 0xfe
            && fileContent[1] == 0xff
            )
            return Encoding.BigEndianUnicode;

        if (fileContent.Length < 3)
            return null;

        if (fileContent[0] == 0xef && fileContent[1] == 0xbb && fileContent[2] == 0xbf)
            return Encoding.UTF8;

        if (fileContent[0] == 0x2b && fileContent[1] == 0x2f && fileContent[2] == 0x76)
            return Encoding.UTF7;

        if (fileContent.Length < 4)
            return null;

        if (fileContent[0] == 0xff && fileContent[1] == 0xfe && fileContent[2] == 0 && fileContent[3] == 0)
            return Encoding.UTF32;

        if (fileContent[0] == 0 && fileContent[1] == 0 && fileContent[2] == 0xfe && fileContent[3] == 0xff)
            return Encoding.GetEncoding(12001);

        String probe;
        int len = fileContent.Length;

        if( fileContent.Length >= 128 ) len = 128;
        probe = Encoding.ASCII.GetString(fileContent, 0, len);

        MatchCollection mc = Regex.Matches(probe, "^<\\?xml[^<>]*encoding[ \\t\\n\\r]?=[\\t\\n\\r]?['\"]([A-Za-z]([A-Za-z0-9._]|-)*)", RegexOptions.Singleline);
        // Add '[0].Groups[1].Value' to the end to test regex

        if( mc.Count == 1 && mc[0].Groups.Count >= 2 )
        {
            // Typically picks up 'UTF-8' string
            Encoding enc = null;

            try {
                enc = Encoding.GetEncoding( mc[0].Groups[1].Value );
            }catch (Exception ) { }

            if( enc != null )
                return enc;
        }

        return Encoding.ASCII;      // Default fallback
    }

Достаточно прочитать первые 1024 байта из файла, но я загружаю весь файл.

7
TarmoPikaro

Блокнот ++ имеет эту функцию "из коробки". Это также поддерживает изменение этого.

7
hegearon

Если кто-то ищет решение на 93,9%. Это работает для меня:

public static class StreamExtension
{
    /// <summary>
    /// Convert the content to a string.
    /// </summary>
    /// <param name="stream">The stream.</param>
    /// <returns></returns>
    public static string ReadAsString(this Stream stream)
    {
        var startPosition = stream.Position;
        try
        {
            // 1. Check for a BOM
            // 2. or try with UTF-8. The most (86.3%) used encoding. Visit: http://w3techs.com/technologies/overview/character_encoding/all/
            var streamReader = new StreamReader(stream, new UTF8Encoding(encoderShouldEmitUTF8Identifier: false, throwOnInvalidBytes: true), detectEncodingFromByteOrderMarks: true);
            return streamReader.ReadToEnd();
        }
        catch (DecoderFallbackException ex)
        {
            stream.Position = startPosition;

            // 3. The second most (6.7%) used encoding is ISO-8859-1. So use Windows-1252 (0.9%, also know as ANSI), which is a superset of ISO-8859-1.
            var streamReader = new StreamReader(stream, Encoding.GetEncoding(1252));
            return streamReader.ReadToEnd();
        }
    }
}
5
Magu

Я сделал нечто подобное в Python. По сути, вам нужно много примеров данных из различных кодировок, которые разбиты скользящим двухбайтовым окном и хранятся в словаре (хэш), который основан на байтовых парах, предоставляющих значения списков кодировок.

Учитывая этот словарь (хэш), вы берете свой входной текст и:

  • если он начинается с любого символа спецификации ('\ xfe\xff' для UTF-16-BE, '\ xff\xfe' для UTF-16-LE, '\ xef\xbb\xbf' для UTF-8 и т. д.), я относиться к этому как предложено
  • если нет, то возьмите достаточно большой образец текста, возьмите все пары байтов образца и выберите кодировку, которая является наименее распространенной из словаря.

Если вы также сэмплировали UTF-закодированные тексты, которые не / начинаются с любой спецификации, второй шаг будет охватывать те, которые пропущены с первого шага.

Пока что это работает для меня (примерные данные и последующие входные данные являются субтитрами на разных языках) с уменьшением количества ошибок.

4
tzot

Инструмент "uchardet" делает это хорошо, используя модели распределения частот символов для каждой кодировки. Большие файлы и более «типичные» файлы имеют большую уверенность (очевидно).

В Ubuntu вы просто apt-get install uchardet

В других системах получите источник, использование и документы здесь: https://github.com/BYVoid/uchardet

3
Erik Aronesty

Конструктор класса StreamReader принимает параметр «обнаружения кодирования».

3
leppie

Если вы можете создать ссылку на библиотеку C, вы можете использовать libenca. Смотрите http://cihar.com/software/enca/ . Со страницы руководства:

Enca читает заданные текстовые файлы или стандартный ввод, если ничего не указано, и использует знания об их языке (должны быть поддержаны вами) и смесь парсинга, статистического анализа, гадания и черной магии определить их кодировки.

Это GPL v2.

1
Kundor

Получил ту же проблему, но пока не нашел хорошего решения для ее автоматического определения .. Теперь я использую PsPad (www.pspad.com) для этого;) Работает нормально

0
DeeCee

Спасибо @ Эрик Аронести за упоминание uchardet.

Между тем (для linux существует инструмент (такой же?): chardet.
Или в Cygwin вы можете использовать: chardetect.

См. справочную страницу chardet:https://www.commandlinux.com/man-page/man1/chardetect.1.html

Это будет эвристически определять (угадывать) кодировку символов для каждого данного файла и сообщать имя и уровень достоверности для обнаруженной кодировки символов каждого файла.

0
Schlacki

Я на самом деле искал общий, не программирующий способ определения кодировки файла, но я пока не нашел этого .. Что я нашел, протестировав с различными кодировками, так это то, что мой текст был UTF-7.

Итак, где я впервые делал: StreamReader file = File.OpenText (fullfilename);

Мне пришлось изменить его на: StreamReader file = new StreamReader (полное имя файла, System.Text.Encoding.UTF7);

OpenText предполагает, что это UTF-8.

вы также можете создать StreamReader следующим образомnew StreamReader (fullfilename, true), второй параметр, означающий, что он должен попытаться определить кодировку по метке byteorder файла, но в моем случае это не сработало.

0
Intraday Tips

Как дополнение к сообщению ITmeze, я использовал эту функцию для преобразования вывода порта C # для Mozilla Universal Charset Detector

    private Encoding GetEncodingFromString(string codePageName)
    {
        try
        {
            return Encoding.GetEncoding(codePageName);
        }
        catch
        {
            return Encoding.ASCII;
        }
    }

MSDN

0
PrivatePyle

Откройте файл в AkelPad (или просто скопируйте/вставьте искаженный текст), перейдите в Edit -> Selection -> Recode ... -> отметьте «Autodetect».

0
plavozont

Поскольку это в основном сводится к эвристике, это может помочь использовать кодирование ранее полученных файлов из того же источника в качестве первой подсказки.

Большинство людей (или приложений) делают вещи в одном и том же порядке каждый раз, часто на одной и той же машине, поэтому вполне вероятно, что когда Боб создает файл .csv и отправляет его Мэри, он всегда будет использовать Windows-1252 или какой бы ни была его машина по умолчанию.

Там, где это возможно, немного обучения клиентов тоже не повредит :-)

0
devstuff

10Y (!) Прошло с тех пор, как об этом спросили, и все же я не вижу упоминаний о хорошем решении MS, не подпадающем под GPL: IMultiLanguage2 API.

Большинство уже упомянутых библиотек основаны на UDE Mozilla - и кажется разумным, что браузеры уже справились с подобными проблемами. Я не знаю, каково решение Chrome, но с тех пор IE 5.0 MS выпустили их, и это:

  1. Без проблем с лицензией GPL и тому подобным,
  2. Поддерживается и поддерживается, вероятно, навсегда,
  3. Дает богатый вывод - все действительные кандидаты на кодирование/кодовые страницы вместе с оценками достоверности,
  4. Удивительно прост в использовании (это единственный вызов функции).

Это собственный COM-вызов, но вот очень хорошая работа Карстена Цоймера, которая обрабатывает беспорядок взаимодействия для использования .net. Вокруг есть и другие, но в целом эта библиотека не получает того внимания, которого заслуживает.

0
Ofek Shilon