Как такую строку \208\181\208\180\208\181 вернуть обратно в русский (РЕШЕНО! - костыль с sed-ом и китайским кодом) ?

Программное обеспечение

balamutick - 21 Август, 2010 - 21:19

Уже сколько раз сталкивался с этой проблемой.

Иногда некоторые вэб-редакторы в такое превращают текст.

И некоторые программы.

И что это вообще ? UTF8 ? (изначально текст на русском был в UTF-8)

ayax - 24 Август, 2010 - 02:41

Вот про web-редакторы зацеплюсь.

Я сталкивался с такой проблемой, когда переводил сайты с 1251 на utf-8.
И на сервере всё правильно настроил, и в БД, и в meta, и в редакторе - и всё равно время от времени нормально работающая страница могла превратиться вот в подобное непотребство.
Всё решилось включением в заголовоки строки header('Content-type: text/html; charset=utf-8');

Вот, ну это если у тебя проблема именно на страницах. Это решение(когда такие названия у файлов) я думаю ты уже увидел:)

ответить

balamutick - 24 Август, 2010 - 18:42

Нет, в данном случае у меня другая ситуация. С вэб-серверам я примерно так и справился, но у меня другой случай.

Тем не менее пусть будет для развития и для тех, кто в поиске найдёт эту тему.

ответить

Xenomorph - 24 Август, 2010 - 22:50

#!/usr/bin/perl $flr='input.inp'; #файл, с которого читаем. заменяем на свой. $flw='>output.out'; #файл, в который пишем, заменяем на свой, ">" оставляем обязательно!!! open (INPUT, $flr); #открываем для чтения open (OUTPUT, $flw);#открываем для записи while (<INPUT>) { #пока файл считывается(аналог while(!EOF)), считываем строчку из файла в переменную $_ s/(\\\d{3})/chr(substr($1,1,3))/eg; #изменяем переменную $_ таким образом #{ #ищем группу "()" из бекслеша "\\" и трех любых цифр"\d{3}". #в найденной группе "$1" пропускаем первый символ("\") и выбираем 3 следующих символа "substr($1,1,3)" #преобразуем полученный результат в символ, отвечающий номеру. #"/eg" - 'e' - execute, 'g' - global; #} print OUTPUT $_; #записываем строку в файл } close(INPUT);#закрываем чтение close (OUTPUT);#закрываем запись
Пример входящего файла
Пример полученного файла

ответить

balamutick - 31 Август, 2010 - 03:18

Прикольно :-)

Заодно программирование подтянуть.
На первый взгляд я вроде вполне понял.

ответить

balamutick - 25 Август, 2010 - 00:18

РЕШЕНИЕ тут->

Нигде не нашёл, таки сделал свой велосипед, блекджека просто дофига:

Развернуть/свернуть скрытый текст.

Источник: http://wm-help.net :PHP. Как раскодировать UTF-8 строку в php

function u8($win,$h,$t)
{
global $w8;
$w8[chr($h).chr($t)] = $win;
}
$c1 = chr(208);
$c2 = chr(209);
u8("й",208,185); u8("ц",209,134); u8("у",209,131);
u8("к",208,186); u8("е",208,181); u8("н",208,189);
u8("г",208,179); u8("ш",209,136); u8("щ",209,137);
u8("з",208,183); u8("х",209,133); u8("ъ",209,138);
u8("ф",209,132); u8("ы",209,139); u8("в",208,178);
u8("а",208,176); u8("п",208,191); u8("р",209,128);
u8("о",208,190); u8("л",208,187); u8("д",208,180);
u8("ж",208,182); u8("э",209,141); u8("я",209,143);
u8("ч",209,135); u8("с",209,129); u8("м",208,188);
u8("и",208,184); u8("т",209,130); u8("ь",209,140);
u8("б",208,177); u8("ю",209,142); u8("Й",208,153);
u8("Ц",208,166); u8("У",208,163); u8("К",208,154);
u8("Е",208,149); u8("Н",208,157); u8("Г",208,147);
u8("Ш",208,168); u8("Щ",208,169); u8("З",208,151);
u8("Х",208,165); u8("Ъ",208,170); u8("Ф",208,164);
u8("Ы",208,171); u8("В",208,146); u8("А",208,144);
u8("П",208,159); u8("Р",208,160); u8("О",208,158);
u8("Л",208,155); u8("Д",208,148); u8("Ж",208,150);
u8("Э",208,173); u8("Я",208,175); u8("Ч",208,167);
u8("С",208,161); u8("М",208,156); u8("И",208,152);
u8("Т",208,162); u8("Ь",208,172); u8("Б",208,145);
u8("Ю",208,174); u8("ё",209,145); u8("Ё",208,129);
 
function utf2win ($text)
{
global $c1,$c2,$w8;
$u = false;
$temp = "";
for($i=0,$len=strlen($text); $i<$len; $i++) {
   $c = substr($text,$i,1);
   if ($u) {
     $c = $w8[$lc.$c];
     $temp .= isset($c)?$c:"?";
     $u = false;
   }
   else if ($c==$c1 || $c==$c2) {
     $u = true;
     $lc = $c;
   }
   else
     $temp .= $c;
}
return $temp;
}

Но куда и чего сувать в PHP, чтобы это сделать, ума не приложу.

ответить

balamutick - 25 Август, 2010 - 20:38

Люди, откопал жука !

Ответьте на простой вопрос:
Как заменить в файле строку типа \209\145 на букву ё ?

Проблема в том, что если написать так:
sed 's/\\209\145/ё/g'
То оно вылетает с ошибкой, так как первые два слэша позволяют с экранировать второй из них, а вот на следующем идёт спотыкание и его уже не позволяет экранировать...

ответить

Xenomorph - 25 Август, 2010 - 23:58

Еще раз заэкранируй, в чём проблема-то?
P.S. Скрипт от меня пробовал?
P.P.S. Скрипт проверил уже сам, всё работает как часы.

ответить

balamutick - 26 Август, 2010 - 01:41

Скрипты сумрачных гениев у меня не работают :-)

Мне надо на пальцах объяснить, что ещё туда добавить.

Еще раз заэкранируй, в чём проблема-то? Ну не дебил я вот в чём проблема, это я первым делом попробовал. Хотя вариант координально кривых рук, не исключён :-), у самого второе экранирование работает ?

ответить

Xenomorph - 26 Август, 2010 - 03:31

sed 's/\\209\145/ё/g'может быть имелось в виду sed 's/\\208\\145/ё/g'
у самого второе экранирование работает? Работает. проверять нет особо на чём.
координальнокардинально, сколько можно же, граммар-наци негодуэ.
Свой скрипт прокомментировал до состояния "Шкиперу станет ясно"

ответить

balamutick - 27 Август, 2010 - 14:00

Проверить можно так:
echo "\208\145" > | sed 's/\\208\\145/ё/g'> result.txt

кардинально на лурке читал, и негодовал, ну кто же так может писать...
(гы, при том, что я уже тысячу раз замечал, что сам пишу неправильно).

Ещё меня можно подловить на словит "звонит", ибо я знаю как правильно произносить и произношу правильно, но поскольку знаю, что многие ошибаются, думаю что наверное и я ошибочно знаю и начинаю произносить неправильно.

Сто раз закопипастю слово правильно:

Развернуть/свернуть скрытый текст.

кардинально кардинально кардинально кардинально кардинально кардинально кардинально кардинально кардинально кардинально кардинально кардинально
кардинально кардинально кардинально кардинально кардинально кардинально кардинально кардинально кардинально кардинально кардинально кардинально
кардинально кардинально кардинально кардинально кардинально кардинально кардинально кардинально кардинально кардинально кардинально кардинально
кардинально кардинально кардинально кардинально кардинально кардинально кардинально кардинально кардинально кардинально кардинально кардинально
кардинально кардинально кардинально кардинально кардинально кардинально кардинально кардинально кардинально кардинально кардинально кардинально
кардинально кардинально кардинально кардинально кардинально кардинально кардинально кардинально кардинально кардинально кардинально кардинально
кардинально кардинально кардинально кардинально кардинально кардинально кардинально кардинально кардинально кардинально кардинально кардинально
кардинально кардинально кардинально кардинально кардинально кардинально кардинально кардинально кардинально кардинально кардинально кардинально
кардинально кардинально кардинально кардинально кардинально кардинально кардинально кардинально кардинально кардинально кардинально кардинально

Развернуть/свернуть скрытый текст.

Немного поправил *Xenomorph

ответить

Fatalist - 26 Август, 2010 - 09:18

Так, вспомнилось в тему:
sceptic> А чем можно в шелле перевести dec -> hex?
nazgul> sceptic: echo "1024" | awk ' { arr="0123456789abcdef"; a=$1; r=""; while (a>0) { r=substr(arr, a%16+1,1) r; a=int(a/16); }; printf "%s\n",r }; '
nazgul> sceptic: с нулём только косяк будет. но там поправить несложно
hekp0maht> $ printf "%x\n" 1024
400
nazgul> hekp0maht: победил =)

Источник.

ответить

Гость - 10 Февраль, 2012 - 14:20

#!/usr/bin/perl -w
use Encode;

$str='?\208?\162?\208?\181?\209?\133?\208?\189?\208?\184?\209?\135?\208?\181?\209?\129?\208?\186?\208?\176?\209?\143 ?\208?\180?\208?\190?\208?\186?\209?\131?\208?\188?\208?\181?\208?\189?\209?\130?\208?\176?\209?\134?\208?\184?\209?\143';

$str=~s/\?\\([0-9]+)\?\\([0-9]+)/sprintf("%c%c",$1,$2)/eg;

$str = decode('UTF8', $str);
$str = encode('KOI8-U', $str);
print "OUT=$str\r\n";

перекодирование по желанию

ответить

Отправить комментарий

Как такую строку \208\181\208\180\208\181 вернуть обратно в русский (РЕШЕНО! - костыль с sed-ом и китайским кодом) ?

РЕШЕНИЕ тут->

Нигде не нашёл, таки сделал свой велосипед, блекджека просто дофига:

Отправить комментарий

Вход в систему

Сейчас на сайте