這篇文章主要講解了“python處理統(tǒng)一碼文件的方法是什么”,文中的講解內(nèi)容簡單清晰,易于學(xué)習(xí)與理解,下面請大家跟著小編的思路慢慢深入,一起來研究和學(xué)習(xí)“python處理統(tǒng)一碼文件的方法是什么”吧!
我們提供的服務(wù)有:成都做網(wǎng)站、網(wǎng)站設(shè)計、微信公眾號開發(fā)、網(wǎng)站優(yōu)化、網(wǎng)站認(rèn)證、阿榮ssl等。為成百上千企事業(yè)單位解決了網(wǎng)站和推廣的問題。提供周到的售前咨詢和貼心的售后服務(wù),是有科學(xué)管理、有技術(shù)的阿榮網(wǎng)站制作公司
對于自然語言處理的從業(yè)者,處理統(tǒng)一碼文件是一場噩夢,尤其是使用Windows操作系統(tǒng)。想象一下,當(dāng)在編碼或解碼過程中遇到錯誤時的沮喪,例如:
UnicodeEncodeError: 'mbcs' codec can't decode characters in positionUnicodeDecodeError: 'charmap' codec can't decode byte 0x90 in position
大多數(shù)時候,除非是這個領(lǐng)域經(jīng)驗豐富的人,否則這樣的錯誤并不能提供足夠的信息。你可能會問為什么需要對字符進(jìn)行編碼和解碼。我們可以從對統(tǒng)一碼的簡單解釋來回答這個問題。
基于官方python文檔,統(tǒng)一碼Unicode (通用編碼字符集)是一種規(guī)范,旨在列出人類語言使用的每個字符,并為每個字符提供各自獨特的代碼。統(tǒng)一碼規(guī)范不斷被修訂和更新,以添加新的語言和符號。
因此,編碼和解碼是一種將字符從文本映射到字節(jié)的方法,反之亦然。這使得它們可在計算機(jī)之間傳輸,并在日常生活中使用。當(dāng)擁有不同的操作系統(tǒng)集時,情況會更復(fù)雜。
此外,不同語言有各自的字符集,只能在特定字體下顯示。簡單而言,可以看作是將一個外文字符翻譯成機(jī)器能理解的字符。本文將探討一些可以用于處理Python中統(tǒng)一碼文件的方法,從可用模式和標(biāo)準(zhǔn)編碼來入手。
通過上下文管理器讀寫文件
打開文件最安全的方法是通過上下文管理器使用with語句。它將自動關(guān)閉文件,防止任何可能出現(xiàn)的問題。
with open('name.txt') as f: f.readlines()
默認(rèn)模式是'rt' ,即讀取和發(fā)送文件??梢允褂靡韵麓a編寫:
with open('name.txt', 'w') as f: f.write('Hello world!')
上面的代碼將改寫并截斷文件。在一些情況下,可能更喜歡使用模式 'a'而不是'w'。以下列表顯示了可用的完整模式:
r:打開閱讀(默認(rèn))
w:打開寫入,首先截斷文件
x:打開專屬創(chuàng)建,如果文件已經(jīng)存在則失敗
a:打開寫入,如果文件存在,則添加到文件末尾
b:二進(jìn)制模式
t:文本模式(默認(rèn))
+:打開一個磁盤文件進(jìn)行更新(讀寫)
可以組合一些模式。如原始文檔中所述(https://docs.python.org/3.5/library/functions.html#open),對于二進(jìn)制讀寫訪問,模式'w+b' 打開并將文件截斷為0字節(jié)。'r+b' 打開文件不會截斷。
Python中的標(biāo)準(zhǔn)編碼
在Python中指定編碼,只需在上下文管理器初始化期間傳入另一個參數(shù)。無論何時讀寫統(tǒng)一碼字符,都需要指定它。以下例子顯示了將統(tǒng)一碼文本添加到現(xiàn)有文件的正確方法:
with open('name.txt', 'a', encoding='utf8') as f: f.write('你好!')
如果不確定使用哪種編碼,只需輸入 utf8并檢查是否有誤。大多情況下,UTF-8對于編碼和解碼字符已經(jīng)夠好了。然而在某些情況下,需要使用不同的編碼。
通過Notepad++檢查編碼類型
一般會更傾向使用Notepad++來查看文件內(nèi)容。如果使用Notepad++打開一個文件,可以在用戶界面的右下角看到使用的編碼類型。
一個使用UTF-8編碼的示例文件
可以通過編碼菜單修改編碼,它接受大量最常用的編碼。
單擊編碼菜單時顯示下拉菜單的圖像
如果曾遇到過無法將文件轉(zhuǎn)換為另一種編碼的問題,或者即使正確地指定了某些編碼,也無法讀取,那么可以嘗試以下方法。雖然有點笨,但親測有效。
用個人希望的編碼創(chuàng)建一個空的文本文件。
從原始文件中復(fù)制所有內(nèi)容。
將其粘貼到新文件并保存。
大多數(shù)情況下,這將自動將所有字符轉(zhuǎn)換為新的編碼。請注意,如果不能根據(jù)新的編碼轉(zhuǎn)換字符,可能會造成數(shù)據(jù)丟失。
處理未知編碼中的字符
如果遇到無法識別編碼且字符未知的情況,可以嘗試修改錯誤參數(shù)來解決這個問題:
with open('name.txt', 'r', encoding='utf8', errors='ignore') as f: f.readlines()
錯誤參數(shù)指的是如何處理編碼和解碼錯誤。請注意,此參數(shù)不能在二進(jìn)制模式中使用。可用錯誤的處理程序有:
嚴(yán)格:如果存在編碼錯誤,則會造成ValueError 異常。None的默認(rèn)值有相同效果。
忽略:忽略錯誤。注意,忽略編碼錯誤會導(dǎo)致數(shù)據(jù)丟失。
替換:將替換標(biāo)記(如'?')插入有畸形數(shù)據(jù)的位置。
surrogateescape:將統(tǒng)一碼私有使用區(qū)域中的任何不正確字節(jié)表示為代碼點,范圍從U+DC80到U+DCFF。當(dāng)這個錯誤處理程序用于編寫數(shù)據(jù)時,這些私有代碼點將被轉(zhuǎn)為相同字節(jié)。這對于處理未知編碼的文件很有用。
xmlcharrefreplace:僅在寫入文件時受支持。不受編碼支持的字符將被替換為適當(dāng)?shù)目蓴U(kuò)展標(biāo)記語言的字符引用 &#nnn;。
backslashreplace:用Python的backslash轉(zhuǎn)義字符替換畸形數(shù)據(jù)。
namereplace:(僅在編寫時支持)替換不支持的 \N{...} 轉(zhuǎn)義字符。
在命令提示符中顯示統(tǒng)一碼字符
如果在Windows操作系統(tǒng)中運行命令提示符,那么在大多數(shù)情況下顯示統(tǒng)一碼字符都會有問題,出現(xiàn)如下圖所示的亂碼字符:
顯示亂碼字符的命令提示符
為了解決這個問題,需要將設(shè)置更改為正確的字體。
右鍵單擊頂部菜單并單擊屬性。
單擊字體菜單。
將字體修改為可顯示字符的所需字體。例如,可以使用楷體來呈現(xiàn)中文字符。
命令提示符的字體屬性
打開一個有統(tǒng)一碼字符的文件路徑——通過pandas模塊適用于read_csv
這部分有點棘手,尤其是在使用某些特定Python模塊(如pandas)時。假設(shè)有以下非英語的文件路徑:
file_path = 'C:\path\to\數(shù)據(jù)分析\data.csv'
試圖通過read_csv讀取文件將會拋出錯誤,因為文件路徑包含統(tǒng)一碼字符。在Python中使用內(nèi)置的open()函數(shù)不是問題所在。為了解決這個問題,需要先打開文件,然后傳遞給read_csv函數(shù):
with open(file_path, 'r', encoding='utf-8') as f: df = pd.read_csv(f, encoding='utf-8')
感謝各位的閱讀,以上就是“python處理統(tǒng)一碼文件的方法是什么”的內(nèi)容了,經(jīng)過本文的學(xué)習(xí)后,相信大家對python處理統(tǒng)一碼文件的方法是什么這一問題有了更深刻的體會,具體使用情況還需要大家實踐驗證。這里是創(chuàng)新互聯(lián),小編將為大家推送更多相關(guān)知識點的文章,歡迎關(guān)注!
文章名稱:python處理統(tǒng)一碼文件的方法是什么
轉(zhuǎn)載源于:http://vcdvsql.cn/article24/pephje.html
成都網(wǎng)站建設(shè)公司_創(chuàng)新互聯(lián),為您提供網(wǎng)站改版、服務(wù)器托管、網(wǎng)站制作、網(wǎng)站收錄、品牌網(wǎng)站制作、軟件開發(fā)
聲明:本網(wǎng)站發(fā)布的內(nèi)容(圖片、視頻和文字)以用戶投稿、用戶轉(zhuǎn)載內(nèi)容為主,如果涉及侵權(quán)請盡快告知,我們將會在第一時間刪除。文章觀點不代表本網(wǎng)站立場,如需處理請聯(lián)系客服。電話:028-86922220;郵箱:631063699@qq.com。內(nèi)容未經(jīng)允許不得轉(zhuǎn)載,或轉(zhuǎn)載時需注明來源: 創(chuàng)新互聯(lián)