Hannah and Je together

Saturday, 6 September 2008

Broken Corean characters of unzipped files on linux

A few days ago, I got a zip file from my friend in Corea. I unzipped it at console in my Linux (ubuntu) just to find out all the file names were broken so that I could not read them at all.

I googled for it and found a blog page of http://jeongsw.tistory.com/283.

And I put the following line in ~/.bash_aliases:

alias unzip=”unzip -O CP949″an,

The reason that the file name were broken was Windows uses CP949 (which is similar to EUC-KR) and my Ubuntu box uses UTF-8 for encoding and decoding. (CP stands for Code Page)

The option “-O” lets the user specify the encoding to use.

몇일 전에 zip 파일을  받았는데, 압축을 푸니 파일 이름의 한글이 다깨져서 읽을 수가 없었다.

구글에서 검색해서 관련된 블로그 글(http://jeongsw.tistory.com/283)을 찾았다. 그리고 내 홈디렉토리의 .bash_aliases에 다음 줄을 집어 넣었다.

alias unzip=”unzip -O CP949″

파일명이 깨진 이유는 윈도우에서는 EUC-KR과 비슷한 CP949를 사용하는데 내 우분투는 유니코드인 UTF-8을 인코딩으로 사용하기 때문이다. (CP는 코드 페이지의 약자)

-O 옵션은 사용자가 사용할 인코딩을 지정할 수 있도록 해 준다.

Create a free website or blog at WordPress.com.