2017/04/28
はじめに
情けないことに続けたいと言って3日で途切れてしまった悲しみから蘇った。
大学が始まると友達と飲んだり、夜に急いで終わらせなければいけないことがでてきてペースがつかめなかった。。
こんなところで言い訳している時点でダメ人間ではあるのだが、気を取り戻して再開することにした。
スクレイピング
機械学習を学んでいるのだがその際にスクレイピングの一つもできないとデータを集めるのにも困難なので、スクレイピングの方法を勉強している。
pythonだとurllibという標準ライブラリがあって非常に簡単にサイトの中身をダウンロードすることができるし、beautifulsoup4というライブラリを使用するとhtmlをぱぱっとパースしてくれるのですごい(笑)
あとsessionを使うためのrequestsもあるし、PhantomJSからブラウザの真似をしてみればもっと色々な情報にアクセスできるのでこちらも勉強している。
tty
本日始めてttyという概念を知った。
ずっと知らないでdocker run -it hoge
とかやってたけど、改めて調べてみたときにAllocate a pseudo-TTY
とか書いてあってなんじゃこれって感じで学ぶことになった。
このサイトで雰囲気をつかめた。
画像表示とかで
他の人ってコマンドラインから画像開くなるときにどうしてるのかすごい気になる。。
自分はalias pdf='evince'
とかを設定してpdfを開いて見てるんだけど(この辺のコマンドすぐ忘れるのでw)
自分はguiを使うのカッコ悪いと思ってる年頃なのだが(実際にコマンドラインの方が早い気もするし)、他の方はどうしてるのかなーと。
何か知見があれば教えていただきたい。
sed
sedのパターン指定を区切る文字は、/ (スラッシュ) 以外でも問題ないことがわかった。
sed コマンドは「s」の直後に指定した文字を区切り文字として認識するみたいで、特に / 自体がパターンに含まれる場合は、/ の代わりに % や | などを区切り文字に使用すると、/ をエスケープする必要がなくなるらしい。
環境作ってる時にsedをエディターにすることが多いので、今後もこのテクニックは便利に使わせてもらう機会が多いだろう。